Survey Magazine vous propose de découvrir le travail mené par les
étudiants du Mastère Informatique Décisionnelle et Statistique de
l’Université Lyon 2. Après 4 mois de préparation, ils ont été, en
direct, sous les feux des projecteurs, lors des soirées électorales des
21 et 28 mars 2004. Ils ont pu ainsi démontrer leur savoir faire
scientifique appliqué aux exigences professionnelles des instituts
d’études, des médias,…. et des politiques.
18H59, dimanche 21 mars 2004, les 45 étudiants du Master Informatique
Décisionnelle et Statistique sont devant leurs ordinateurs dans
l’hémicycle du Conseil Régional. Silencieux et tendus, ils attendent
la clôture du scrutin régional et les premiers appels des 600 volontaires de
Lyon 2 répartis dans les bureaux de vote de leur échantillon.
A 19:16 une petite commune téléphone ses premiers résultats. Puis les
appels arrivent en rafale.
Comme prévu, à 19:30, Ricco Rakotomalala, le professeur responsable du
programme informatique lance l’ordre de calcul des premières
fourchettes. Tout le monde retient son souffle : 4 mois de préparation vont
trouver leur aboutissement. Les premières estimations ne sont pas transmises
à France-3, car la diffusion de tout sondage est interdite avant 20 heures,
mais on voit déjà que les listes Queyranne et Comparini sont au coude à
coude. La fourchette calculée à 20 heures, est diffusée sur France-3
nationale sous la signature « Université Lumière Lyon 2, Sciences Eco.
Gestion ». Six heures plus tard, à 2 heures du matin, la Préfecture
confirmera nos estimations. Le pari des étudiants et de leurs professeurs
sera gagné : donner en temps réel et en direct des estimations fiables des
résultats électoraux.
Jean-Hugues Chauchat et Stéphane Lallich, enseignants du Master, y
voient un formidable apprentissage professionnel : « Les étudiants ont fait
la preuve de leur savoir-faire scientifique, de leurs qualités
professionnelles, de leur sens des responsabilités et du travail en équipe.
Tout le monde était stressé car vers 2 heures du matin, on allait savoir si,
oui ou non, toutes les fourchettes diffusées étaient exactes. Mais
c’est un stress productif car il oblige l’équipe à se surpasser
et à atteindre le zéro défaut. »
De mai à septembre, les 45 étudiants achèvent leur formation par un
stage en entreprise, banques, hôpitaux, etc., en France, en Europe, aux
Etats-Unis et au Canada.
L’Université ayant pour mission de créer et de diffuser les
savoirs et les savoirs-faire ; elle ne cherche pas ici à protéger ses «
secrets de fabrication ». Nous souhaitons au contraire contribuer à
perfectionner les compétences statistiques des praticiens des études. Nous
présentons donc en détail la méthode utilisée pour donner en direct et en
temps réel sur France-3 des estimations des résultats des élections
régionales des 21 et 28 mars 2004 en Rhône-Alpes. Ceci à partir des premiers
bulletins dépouillés dans un échantillon de bureaux de vote des huit
départements : Ain, Ardèche, Drôme, Isère, Loire, Rhône, Savoie et
Haute-Savoie.
Il faut pouvoir donner très rapidement des résultats précis et exacts.
La sanction de l’exactitude est rapide puisque la Préfecture de Région
donne les résultats définitifs vers 2 heures du matin, soit 6 heures après
les premières fourchettes diffusées. Ces niveaux de précision et
d’exactitude sont bien supérieurs à ceux des études classiques en
marketing. Mais la réussite de cet exercice donne de la crédibilité aux
instituts (ou à l’Université) qui s’y risquent.
France-3 a passé un contrat avec l’équipe du Master Professionnel
‘Statistique et Informatique Socio-Economiques’ (ex-DESS SISE)
de la Faculté de Sciences Economiques et Gestion de l’Université
Lumière Lyon-2, soit 26 étudiants et leurs professeurs.
Préparation de l’échantillonnage
L’ensemble des bureaux a été stratifié, puis les tirages ont été
réalisés à probabilités inégales dans chaque strate Nous avons calculé que
cela divise la variance des estimations par 4. Autrement dit, cette méthode
de sondage donne ici la même précision qu’un échantillon classique 4
fois plus grand. De façon générale pour constituer un échantillon, il faut
toujours 1) prévoir son utilisation lors du dépouillement, 2) utiliser au
mieux les informations connues a priori sur la population-cible.
1) A cause du mode de scrutin, nous avions besoin d’estimer les
résultats dans la Région Rhône-Alpes ainsi que pour chacun de ses 8
départements. Les strates sont donc des sous-ensembles des départements.
2) Les études de sociologie électorale montrent la stabilité
géographique des votes : les bureaux qui votent plus (ou moins) pour un
parti, ou une famille politique, lors d’un scrutin, votent aussi plus
(ou moins) pour ce parti aux scrutins suivant, et ceci même si cette
tendance baisse ou monte globalement. En d’autres termes la structure
géographique (l’ensemble des corrélations) des votes est stable, même
si les niveaux (les moyennes) varient.
Le dernier scrutin avec des candidats identiques sur toute la Région
était la Présidentielle de 2002. Nous avons donc récupéré les résultats du
premier tour de cette élection pour chacun des 6800 bureaux de vote de
Rhône-Alpes. Il y avait 16 candidats, que nous avons regroupés en 6
tendances, compte tenu de ce que nous savions à l’avance sur les
accords électoraux en préparation : Extrême-Gauche, PC-PS, Verts, Divers,
UDF-UMP, Extrême-Droite. Puis nous avons réalisé une classification
automatique des bureaux dans chaque département. Le nombre des classes dans
un département était à peu près proportionnel au nombre d’inscrits :
deux classes dans l’Ardèche et huit dans le Rhône.
Disposant de 600 enquêteurs, nous avons constitué ainsi 30
classes-strates en tout, pour viser un échantillon de 20 bureaux par
strates. Ceci pour être quasi assuré d’avoir les résultats d’au
moins 3 bureaux par strates au moment du calcul des premières fourchettes.
A l’intérieur d’une strate politiquement homogène, le nombre
de voix obtenu par une liste donnée dans un bureau donné est à peu près
proportionnel au nombre d’électeurs inscrits dans ce bureau. Il est
donc optimal de procéder, dans chaque strate, à un tirage des bureaux avec
des probabilités proportionnelles aux nombres d’inscrits.
Des strates mouvantes au cours de la soirée
Au début de la soirée, on reçoit les résultats partiels d’un
sous-ensemble aléatoire de bureaux de votes ; ensuite les résultats
définitifs de presque tous les bureaux de l’échantillon prévu, puis,
progressivement, les résultats complets des 150 plus grandes communes de la
Région.
Quand une grande commune complète arrive, cela modifie la stratification
car ses bureaux de votes étaient répartis dans les strates a priori. Il faut
donc adapter la stratification tout au long de l’opération : chaque
grande commune qui téléphone devient une strate (dont le résultat est connu
sans aléa), et les anciennes strates se trouvent réduites d’autant.
Les bureaux de cette commune qui étaient dans l’échantillon quittent
celui-ci et les poids des bureaux qui restent dans l’échantillon
doivent être modifiés. Pour que chaque strate reste suffisamment représentée
dans l’échantillon, on s’était assuré au départ que chacune des
strates contenait au moins cinq bureaux de petite commune ; dans le cas
contraire certaines grandes communes étaient exclues de la liste de celles
dont les résultats définitifs étaient sollicités.
Estimation ponctuelle
On estime le % de chaque liste dans la Région en estimant, d’une part, le nombre total de voix de la liste et, d’autre part, le nombre total de voix exprimées.
Formule générale et notations
La population des bureaux de vote de la Région est repartie en H strates :
indice d’une strate, h = 1, 2, 3, …, H
Chaque strate est composée de Nh bureaux de vote (population) parmi
lesquels est choisi un échantillon de nh bureaux de votes (par tirage à
probabilités inégales, proportionnelles au nombre d’inscrits par
bureau) :
i : indice d’un bureau de vote dans une strate donnée, i = 1, 2,
3, …, nh (dans l’échantillon)
Mh : nombre d’inscrits dans la strate h
Mhi : nombre d’inscrits dans le bureau de vote i de la strate h
Mh et Mhi correspondent aux inscrits connus au moment du tirage de
l’échantillon, c’est-à-dire un mois avant le scrutin (à ne
pas confondre avec les inscrits saisis le soir des élections par
téléphone)
Vhi : nombre de votants dans le bureau de vote i de la strate h
vhi : nombre d’enveloppes dépouillées et déjà communiquées au
moment du calcul de l’estimation dans le bureau de vote i de la strate h
<
Yhi : nombre de suffrages pour la liste Y dans le bureau de vote i de
la strate h
ehi : nombre de voix exprimées pour la liste Y dans le bureau de
vote i de la strate h
Pour estimer le total des voix d’une liste dans une strate « h
», le nombre de voix obtenues est affecté d’un poids lié :
• au second degrés de tirage (échantillon de bulletins dans le
bureau ; par exemple les 100 premiers bulletins dépouillés) ; si une
liste a obtenue 20 voix parmi 100 bulletins, et que ces 100 sont un
échantillon des 600 bulletins de l’urne, on extrapole à
(600/100)×20 = 120 voix pour la liste dans ce bureau ;
• au premier degré de tirage (échantillon de bureaux dans la
strate), l’estimation sans biais du nombre total de voix de la
liste dans la strate est le résultat précédent pondéré par
l’inverse de la probabilité de tirage ; ici la part des inscrits
du bureau (Mhi) dans l’ensemble des inscrits de la strate(Mh) ; si
les 120 voix précédentes sont issues d’un bureau qui regroupe
1/100 ème des inscrits (et qui avait une chance sur 100 d’être
choisi, à chaque tirage), alors on estime que la liste a obtenu 120×100
= 12000 voix en tout dans la strate. Ceci est l’estimation du
total obtenue à partir de chacun des nh bureaux de l’échantillon ;
l’estimation finale pour la strate est la moyenne arithmétique de
ces nh estimations.
Apports de données exhaustives
Pour réduire la variance de l’estimateur de R, on utilise le maximum
d’information. Quand une commune communique ses résultats complets, il
n’y a plus d’incertitude pour cette partie de la population. Les
résultats de cette commune sont intégrés dans l’estimation de Y et on
supprime les bureaux de vote de cette commune des strates auxquelles ils
appartenaient.
Les quantités nh* et Mh* décroissent comme suit :
nh* = nh – nombre de bureaux qui appartenaient à la strate h et
qui sont dans les communes complètes
Mh* = Mh – nombre d’inscrits des bureaux des communes
complètes appartenant à la strate h
Supposons que « z » communes fournissent des résultats exhaustifs.
j : indice d’une commune dont on a les résultats exhaustifs (tous
les bureaux de vote de la commune, y compris ceux qui n’appartiennent
pas à l’échantillon), j = 1, 2, 3, …, z
Yj : nombre de suffrages pour la liste Y dans la commune j
Les modifications sont identiques pour l’estimation de E et la
formule d’estimation de R reste inchangée.
Estimation de l’abstention
L’estimation du % d’abstention est faite de la même façon par le
quotient des estimations du nombre total de votants, et de celui des
d’inscrits :
taux d’abstention = 1-taux de participation
Estimations pour chaque département
Les strates étant des sous-ensembles de bureaux d’un même département, on obtient les estimations pour un département en utilisant les formules précédentes en se restreignant aux strates de ce département.
Construction des intervalles de confiance à 99%
Pour calculer des intervalles de confiance, il faut estimer la variabilité
des résultats liée au caractère aléatoire de l’échantillon. Le
Bootstrap est un procédé très général pour estimer cette variabilité. Il est
fondé sur le « ré-échantillonnage », c’est-à-dire le tirage
d’échantillons fictifs dans l’échantillon observé. On applique
les formules d’estimation des paramètres d’intérêts (ici le % de
voix ^R de chaque liste, leurs nombres de sièges, etc.) sur chaque
échantillon fictif et on estime ainsi leur variabilité.
A partir d’un vrai échantillon de ‘n’ individus tirés
de façon équiprobable et indépendante dans la population, un « échantillon
Bootstrap » est le résultat de n tirages avec remise dans ce vrai
échantillon ; chacun des éléments ‘i’ de celui-ci se trouve Bi
fois dans « l’échantillon Bootstrap » ; chaque Bi suit une loi
binomiale (n tirages ; probabilité 1/n à chaque tirage) et leur somme est
constante.
Les tirages Bootstrap doivent respecter le plan de sondage qui a produit
l’échantillon observé. Le Bootstrap a été récemment adaptée aux
échantillons complexes Avec le plan de sondage utilisé ici, on montre
qu’un bon « échantillon Bootstrap » est constitué de la réunion de
(nh-1) tirages équiprobables avec remise dans chaque strate parmi les nh
bureaux de vote ayant téléphoné.
Estimations Bootstrap sans grande commune complète
Bhi : nombre de fois où le bureau i de la strate h est tiré dans
l’échantillon bootstrap. Bhi = 0, 1, 2, 3, …, nh -1
Les modifications sont identiques pour l’estimation de Eb. La
formule d’estimation de Rb reste inchangée.
Estimations Bootstrap AVEC des grandes communes complètes
On utilise le bootstrap uniquement pour les strates dont l’information
est incomplète.
Les modifications sont identiques pour l’estimation de E. La
formule d’estimation de Rb reste inchangée.
Calcul de l’intervalle de confiance
• Calcul de l'intervalle de confiance par estimation de la variance (le plus
adapté pour les pourcentages) :
A partir des 1 000 estimations bootstrap de R on peut calculer la
variance de cet estimateur.
B : nombre d’échantillons bootstrap, B=1 000
b : indice désignant un échantillon bootstrap, b= 1, 2, 3, …, B
• Par troncature des valeurs extrêmes (le plus adapté pour les sièges) :
Réaliser 1000 échantillons bootstrap nous permet d’éliminer les 1%
valeurs extrêmes de la distribution de R (on surprime les 5 ^Rb les plus
grands et les 5 ^Rb les plus petits). Par troncature on obtient directement
l’intervalle de confiance à 99%. L’avantage est qu’on
obtient un IC correct, même si la distribution de ^R est dissymétrique (cas
où l’approximation normale ne peut être utilisée).
Expression de la répartition des sièges
N : nombre de siège à pourvoir, N = 157 en Rhône-Alpes
Ny : nombre de sièges à pourvoir pour la liste Y
Ry : pourcentage de voix obtenu par la liste Y au 2nd tour
Règles de décision à prendre en compte (au 1er tour si une liste obtient
au moins 50% des suffrages, au 2nd tour sinon) :
• seules les listes ayant récolté plus de 5% des suffrages obtiennent
des sièges,
• la liste ayant obtenu le plus grand nombre de suffrage obtient
d’office ¼ des sièges,
• les ¾ des sièges restants (117) sont répartis « à la plus forte
moyenne » entre les différentes listes (y compris la liste majoritaire)
proportionnellement au nombre de suffrages récoltés par chacune.
Ce qui nous donne :
• si Ry < 5%, Ny = 0,
• si Ry > 5%, Ny = répartition à la plus forte moyenne de 117 sièges
entre les listes ayant plus de 5% des suffrages + 40 sièges pour la liste
majoritaire.
Expression de la répartition des sièges dans chaque département
Une fois les sièges attribués à chaque liste, on répartit les sièges de chaque liste entre les départements à la proportionnelle à la plus forte moyenne, ce qui demande plusieurs itérations. Ce calcul est effectué sur chaque échantillon « bootstrap ».
Le test du 11 mars
Le standard de l’hémicycle du conseil régional a spécialement été
équipé pour l’occasion : 50 ordinateurs et autant de téléphones pour
permettre une saisie efficace des résultats provenant des bureaux de vote
présents l’échantillon.
Le test nous a permis de vérifier que tout fonctionnait bien, et de
faire les dernières modifications nécessaires au bon déroulement des deux
soirées électorales.