Hors-Série IA 2020

Estimation en direct des résultats des élections régionales en Rhône-Alpes pour France 3

Survey Magazine vous propose de découvrir le travail mené par les étudiants du Mastère Informatique Décisionnelle et Statistique de l’Université Lyon 2. Après 4 mois de préparation, ils ont été, en direct, sous les feux des projecteurs, lors des soirées électorales des 21 et 28 mars 2004. Ils ont pu ainsi démontrer leur savoir faire scientifique appliqué aux exigences professionnelles des instituts d’études, des médias,…. et des politiques.

18H59, dimanche 21 mars 2004, les 45 étudiants du Master Informatique Décisionnelle et Statistique sont devant leurs ordinateurs dans l’hémicycle du Conseil Régional. Silencieux et tendus, ils attendent la clôture du scrutin régional et les premiers appels des 600 volontaires de Lyon 2 répartis dans les bureaux de vote de leur échantillon.

A 19:16 une petite commune téléphone ses premiers résultats. Puis les appels arrivent en rafale.

Comme prévu, à 19:30, Ricco Rakotomalala, le professeur responsable du programme informatique lance l’ordre de calcul des premières fourchettes. Tout le monde retient son souffle : 4 mois de préparation vont trouver leur aboutissement. Les premières estimations ne sont pas transmises à France-3, car la diffusion de tout sondage est interdite avant 20 heures, mais on voit déjà que les listes Queyranne et Comparini sont au coude à coude. La fourchette calculée à 20 heures, est diffusée sur France-3 nationale sous la signature « Université Lumière Lyon 2, Sciences Eco. Gestion ». Six heures plus tard, à 2 heures du matin, la Préfecture confirmera nos estimations. Le pari des étudiants et de leurs professeurs sera gagné : donner en temps réel et en direct des estimations fiables des résultats électoraux.

Jean-Hugues Chauchat et Stéphane Lallich, enseignants du Master, y voient un formidable apprentissage professionnel : « Les étudiants ont fait la preuve de leur savoir-faire scientifique, de leurs qualités professionnelles, de leur sens des responsabilités et du travail en équipe. Tout le monde était stressé car vers 2 heures du matin, on allait savoir si, oui ou non, toutes les fourchettes diffusées étaient exactes. Mais c’est un stress productif car il oblige l’équipe à se surpasser et à atteindre le zéro défaut. »

De mai à septembre, les 45 étudiants achèvent leur formation par un stage en entreprise, banques, hôpitaux, etc., en France, en Europe, aux Etats-Unis et au Canada.

L’Université ayant pour mission de créer et de diffuser les savoirs et les savoirs-faire ; elle ne cherche pas ici à protéger ses « secrets de fabrication ». Nous souhaitons au contraire contribuer à perfectionner les compétences statistiques des praticiens des études. Nous présentons donc en détail la méthode utilisée pour donner en direct et en temps réel sur France-3 des estimations des résultats des élections régionales des 21 et 28 mars 2004 en Rhône-Alpes. Ceci à partir des premiers bulletins dépouillés dans un échantillon de bureaux de vote des huit départements : Ain, Ardèche, Drôme, Isère, Loire, Rhône, Savoie et Haute-Savoie.

Il faut pouvoir donner très rapidement des résultats précis et exacts. La sanction de l’exactitude est rapide puisque la Préfecture de Région donne les résultats définitifs vers 2 heures du matin, soit 6 heures après les premières fourchettes diffusées. Ces niveaux de précision et d’exactitude sont bien supérieurs à ceux des études classiques en marketing. Mais la réussite de cet exercice donne de la crédibilité aux instituts (ou à l’Université) qui s’y risquent.

France-3 a passé un contrat avec l’équipe du Master Professionnel ‘Statistique et Informatique Socio-Economiques’ (ex-DESS SISE) de la Faculté de Sciences Economiques et Gestion de l’Université Lumière Lyon-2, soit 26 étudiants et leurs professeurs.

Préparation de l’échantillonnage

L’ensemble des bureaux a été stratifié, puis les tirages ont été réalisés à probabilités inégales dans chaque strate Nous avons calculé que cela divise la variance des estimations par 4. Autrement dit, cette méthode de sondage donne ici la même précision qu’un échantillon classique 4 fois plus grand. De façon générale pour constituer un échantillon, il faut toujours 1) prévoir son utilisation lors du dépouillement, 2) utiliser au mieux les informations connues a priori sur la population-cible.

1) A cause du mode de scrutin, nous avions besoin d’estimer les résultats dans la Région Rhône-Alpes ainsi que pour chacun de ses 8 départements. Les strates sont donc des sous-ensembles des départements.

2) Les études de sociologie électorale montrent la stabilité géographique des votes : les bureaux qui votent plus (ou moins) pour un parti, ou une famille politique, lors d’un scrutin, votent aussi plus (ou moins) pour ce parti aux scrutins suivant, et ceci même si cette tendance baisse ou monte globalement. En d’autres termes la structure géographique (l’ensemble des corrélations) des votes est stable, même si les niveaux (les moyennes) varient.

Le dernier scrutin avec des candidats identiques sur toute la Région était la Présidentielle de 2002. Nous avons donc récupéré les résultats du premier tour de cette élection pour chacun des 6800 bureaux de vote de Rhône-Alpes. Il y avait 16 candidats, que nous avons regroupés en 6 tendances, compte tenu de ce que nous savions à l’avance sur les accords électoraux en préparation : Extrême-Gauche, PC-PS, Verts, Divers, UDF-UMP, Extrême-Droite. Puis nous avons réalisé une classification automatique des bureaux dans chaque département. Le nombre des classes dans un département était à peu près proportionnel au nombre d’inscrits : deux classes dans l’Ardèche et huit dans le Rhône.

Disposant de 600 enquêteurs, nous avons constitué ainsi 30 classes-strates en tout, pour viser un échantillon de 20 bureaux par strates. Ceci pour être quasi assuré d’avoir les résultats d’au moins 3 bureaux par strates au moment du calcul des premières fourchettes.

A l’intérieur d’une strate politiquement homogène, le nombre de voix obtenu par une liste donnée dans un bureau donné est à peu près proportionnel au nombre d’électeurs inscrits dans ce bureau. Il est donc optimal de procéder, dans chaque strate, à un tirage des bureaux avec des probabilités proportionnelles aux nombres d’inscrits.

Des strates mouvantes au cours de la soirée

Au début de la soirée, on reçoit les résultats partiels d’un sous-ensemble aléatoire de bureaux de votes ; ensuite les résultats définitifs de presque tous les bureaux de l’échantillon prévu, puis, progressivement, les résultats complets des 150 plus grandes communes de la Région.

Quand une grande commune complète arrive, cela modifie la stratification car ses bureaux de votes étaient répartis dans les strates a priori. Il faut donc adapter la stratification tout au long de l’opération : chaque grande commune qui téléphone devient une strate (dont le résultat est connu sans aléa), et les anciennes strates se trouvent réduites d’autant. Les bureaux de cette commune qui étaient dans l’échantillon quittent celui-ci et les poids des bureaux qui restent dans l’échantillon doivent être modifiés. Pour que chaque strate reste suffisamment représentée dans l’échantillon, on s’était assuré au départ que chacune des strates contenait au moins cinq bureaux de petite commune ; dans le cas contraire certaines grandes communes étaient exclues de la liste de celles dont les résultats définitifs étaient sollicités.

Estimation ponctuelle

On estime le % de chaque liste dans la Région en estimant, d’une part, le nombre total de voix de la liste et, d’autre part, le nombre total de voix exprimées.

Formule générale et notations

La population des bureaux de vote de la Région est repartie en H strates :
indice d’une strate, h = 1, 2, 3, …, H

Chaque strate est composée de Nh bureaux de vote (population) parmi lesquels est choisi un échantillon de nh bureaux de votes (par tirage à probabilités inégales, proportionnelles au nombre d’inscrits par bureau) :
i : indice d’un bureau de vote dans une strate donnée, i = 1, 2, 3, …, nh (dans l’échantillon)
Mh : nombre d’inscrits dans la strate h
Mhi : nombre d’inscrits dans le bureau de vote i de la strate h
Mh et Mhi correspondent aux inscrits connus au moment du tirage de l’échantillon, c’est-à-dire un mois avant le scrutin (à ne pas confondre avec les inscrits saisis le soir des élections par téléphone)
Vhi : nombre de votants dans le bureau de vote i de la strate h
vhi : nombre d’enveloppes dépouillées et déjà communiquées au moment du calcul de l’estimation dans le bureau de vote i de la strate h <
Yhi : nombre de suffrages pour la liste Y dans le bureau de vote i de la strate h
ehi : nombre de voix exprimées pour la liste Y dans le bureau de vote i de la strate h

Pour estimer le total des voix d’une liste dans une strate « h », le nombre de voix obtenues est affecté d’un poids lié :
• au second degrés de tirage (échantillon de bulletins dans le bureau ; par exemple les 100 premiers bulletins dépouillés) ; si une liste a obtenue 20 voix parmi 100 bulletins, et que ces 100 sont un échantillon des 600 bulletins de l’urne, on extrapole à (600/100)×20 = 120 voix pour la liste dans ce bureau ;
• au premier degré de tirage (échantillon de bureaux dans la strate), l’estimation sans biais du nombre total de voix de la liste dans la strate est le résultat précédent pondéré par l’inverse de la probabilité de tirage ; ici la part des inscrits du bureau (Mhi) dans l’ensemble des inscrits de la strate(Mh) ; si les 120 voix précédentes sont issues d’un bureau qui regroupe 1/100 ème des inscrits (et qui avait une chance sur 100 d’être choisi, à chaque tirage), alors on estime que la liste a obtenu 120×100 = 12000 voix en tout dans la strate. Ceci est l’estimation du total obtenue à partir de chacun des nh bureaux de l’échantillon ; l’estimation finale pour la strate est la moyenne arithmétique de ces nh estimations.

Apports de données exhaustives

Pour réduire la variance de l’estimateur de R, on utilise le maximum d’information. Quand une commune communique ses résultats complets, il n’y a plus d’incertitude pour cette partie de la population. Les résultats de cette commune sont intégrés dans l’estimation de Y et on supprime les bureaux de vote de cette commune des strates auxquelles ils appartenaient.

Les quantités nh* et Mh* décroissent comme suit :
nh* = nh – nombre de bureaux qui appartenaient à la strate h et qui sont dans les communes complètes
Mh* = Mh – nombre d’inscrits des bureaux des communes complètes appartenant à la strate h

Supposons que « z » communes fournissent des résultats exhaustifs.
j : indice d’une commune dont on a les résultats exhaustifs (tous les bureaux de vote de la commune, y compris ceux qui n’appartiennent pas à l’échantillon), j = 1, 2, 3, …, z
Yj : nombre de suffrages pour la liste Y dans la commune j

Les modifications sont identiques pour l’estimation de E et la formule d’estimation de R reste inchangée.

Estimation de l’abstention

L’estimation du % d’abstention est faite de la même façon par le quotient des estimations du nombre total de votants, et de celui des d’inscrits :
taux d’abstention = 1-taux de participation

Estimations pour chaque département

Les strates étant des sous-ensembles de bureaux d’un même département, on obtient les estimations pour un département en utilisant les formules précédentes en se restreignant aux strates de ce département.

Construction des intervalles de confiance à 99%

Pour calculer des intervalles de confiance, il faut estimer la variabilité des résultats liée au caractère aléatoire de l’échantillon. Le Bootstrap est un procédé très général pour estimer cette variabilité. Il est fondé sur le « ré-échantillonnage », c’est-à-dire le tirage d’échantillons fictifs dans l’échantillon observé. On applique les formules d’estimation des paramètres d’intérêts (ici le % de voix ^R de chaque liste, leurs nombres de sièges, etc.) sur chaque échantillon fictif et on estime ainsi leur variabilité.

A partir d’un vrai échantillon de ‘n’ individus tirés de façon équiprobable et indépendante dans la population, un « échantillon Bootstrap » est le résultat de n tirages avec remise dans ce vrai échantillon ; chacun des éléments ‘i’ de celui-ci se trouve Bi fois dans « l’échantillon Bootstrap » ; chaque Bi suit une loi binomiale (n tirages ; probabilité 1/n à chaque tirage) et leur somme est constante.

Les tirages Bootstrap doivent respecter le plan de sondage qui a produit l’échantillon observé. Le Bootstrap a été récemment adaptée aux échantillons complexes Avec le plan de sondage utilisé ici, on montre qu’un bon « échantillon Bootstrap » est constitué de la réunion de (nh-1) tirages équiprobables avec remise dans chaque strate parmi les nh bureaux de vote ayant téléphoné.

Estimations Bootstrap sans grande commune complète

Bhi : nombre de fois où le bureau i de la strate h est tiré dans l’échantillon bootstrap. Bhi = 0, 1, 2, 3, …, nh -1
Les modifications sont identiques pour l’estimation de Eb. La formule d’estimation de Rb reste inchangée.

Estimations Bootstrap AVEC des grandes communes complètes

On utilise le bootstrap uniquement pour les strates dont l’information est incomplète.
Les modifications sont identiques pour l’estimation de E. La formule d’estimation de Rb reste inchangée.

Calcul de l’intervalle de confiance

• Calcul de l'intervalle de confiance par estimation de la variance (le plus adapté pour les pourcentages) :
A partir des 1 000 estimations bootstrap de R on peut calculer la variance de cet estimateur.
B : nombre d’échantillons bootstrap, B=1 000
b : indice désignant un échantillon bootstrap, b= 1, 2, 3, …, B

• Par troncature des valeurs extrêmes (le plus adapté pour les sièges) :
Réaliser 1000 échantillons bootstrap nous permet d’éliminer les 1% valeurs extrêmes de la distribution de R (on surprime les 5 ^Rb les plus grands et les 5 ^Rb les plus petits). Par troncature on obtient directement l’intervalle de confiance à 99%. L’avantage est qu’on obtient un IC correct, même si la distribution de ^R est dissymétrique (cas où l’approximation normale ne peut être utilisée).

Expression de la répartition des sièges

N : nombre de siège à pourvoir, N = 157 en Rhône-Alpes
Ny : nombre de sièges à pourvoir pour la liste Y
Ry : pourcentage de voix obtenu par la liste Y au 2nd tour

Règles de décision à prendre en compte (au 1er tour si une liste obtient au moins 50% des suffrages, au 2nd tour sinon) :
• seules les listes ayant récolté plus de 5% des suffrages obtiennent des sièges,
• la liste ayant obtenu le plus grand nombre de suffrage obtient d’office ¼ des sièges,
• les ¾ des sièges restants (117) sont répartis « à la plus forte moyenne » entre les différentes listes (y compris la liste majoritaire) proportionnellement au nombre de suffrages récoltés par chacune.

Ce qui nous donne :
• si Ry < 5%, Ny = 0,
• si Ry > 5%, Ny = répartition à la plus forte moyenne de 117 sièges entre les listes ayant plus de 5% des suffrages + 40 sièges pour la liste majoritaire.

Expression de la répartition des sièges dans chaque département

Une fois les sièges attribués à chaque liste, on répartit les sièges de chaque liste entre les départements à la proportionnelle à la plus forte moyenne, ce qui demande plusieurs itérations. Ce calcul est effectué sur chaque échantillon « bootstrap ».

Le test du 11 mars

Le standard de l’hémicycle du conseil régional a spécialement été équipé pour l’occasion : 50 ordinateurs et autant de téléphones pour permettre une saisie efficace des résultats provenant des bureaux de vote présents l’échantillon.

Le test nous a permis de vérifier que tout fonctionnait bien, et de faire les dernières modifications nécessaires au bon déroulement des deux soirées électorales.

  • Abonnement SurveyMag

Suivez-nous