Interview
Aurélie Vanheuverzwyn est Directrice du département Data Science de Médiamétrie
Les instituts d’études les plus innovants semblent pleinement tirer parti de l’exploitation de la data à des fins de meilleure connaissance du public. Survey-Magazine a rencontré Aurélie Vanheuverzwyn, directrice de l’entité scientifique de Médiamétrie récemment renommée Direction data science, pour en savoir plus sur ce potentiel.
Survey-Magazine : Qu’est-ce qui vous a amenés à enrichir vos mesures d’audience par panels ?
Aurélie Vanheuverzwyn : La mesure d’audience des médias repose sur l’observation des comportements individuels. Cela passe donc nécessairement par l’interrogation d’échantillons ou de panels. Qui dit échantillon dit intervalle de confiance. Et dès lors que le phénomène que l’on cherche à observer est à longue traîne (la « long tail » en anglais) – ce qui est le cas dans la mesure digitale dont l’offre de contenus est pléthorique – il devient utile d’enrichir la mesure par sondage avec des big data pour pouvoir observer avec précision la multiplicité des comportements .
En quoi le Big Data peut-il permettre de gagner en efficacité et améliorer la connaissance du public ?
Les données massives – Big Data – offrent l’exhaustivité et les mesures par panel apportent des informations sur les individus. Si les données massives ne comptabilisent pas des individus mais plutôt des machines, et parfois des robots, leur apport en matière de granularité et de précision, au sens statistique du terme, est réel. Le rapprochement des deux sources de données, panels et mesure exhaustive, que l’on appelle hybridation, permet de créer une information plus riche et plus fine, les limites de l’une étant compensées par les forces de l’autre.
Quels sont les types de données Big Data auxquels vous avez recours ?
Pour les mesures d’audience Internet, nous utilisons conjointement nos panels d’individus et les données massives des mesures site-centric, issues du taggage des sites et applications Internet. Pour enrichir la mesure d’audience de l’internet fixe, nous avons mis au point, dès 2012, une méthode d’hybridation dite panel-up qui rapproche les deux sources de données et permet d’apporter encore plus de précision statistique aux résultats d’audience. Nous avons fait de même en 2016 pour la mesure d’audience de l’Internet mobile. Pour la mesure des chaînes thématiques de la télévision, nous savons exploiter les données exhaustives des box TV des opérateurs afin d’augmenter la granularité et la fréquence de publication des résultats d’audience. La méthodologie retenue est dite log-up : elle repose principalement sur la mesure des données issues des voies de retour des box que les informations du panel viennent enrichir. Cette méthode d’hybridation consiste à passer d’une mesure au niveau box (identification de la chaîne sur laquelle la box est allumée à un instant donné) à une mesure individuelle (le téléviseur est-il allumé ? qui sont les personnes devant l’écran?) à l’aide d’un modèle socio-démographique et comportemental construit sur le panel Médiamat composé de près de 12 000 individus de 4 ans et plus.
Quels sont les nouveaux dispositifs et méthodologies d’études en la matière ?
Avec la convergence de plus en plus forte entre les médias, notamment le couple TV / Internet, les nouveaux dispositifs que nous construisons combinent un plus grand nombre de sources encore afin d’avoir une vision globale des contacts des individus avec le média. Plus concrètement, notre mesure d’audience de la télévision couvre aujourd’hui tous les écrans, c’est-à-dire le téléviseur, et également l’ordinateur, le smartphone et la tablette. Pour obtenir ce résultat, l’enjeu sur le plan scientifique est d’agréger différents panels TV et Internet, par fusion statistique, avant de passer à l’étape d’hybridation avec les données exhaustives site-centric. L’étape suivante sera l’élargissement à l’ensemble des contenus vidéo disponibles sur les plateformes Internet ou en OTT (par exemple les services de vidéo à la demande tels que Netflix qui utilisent internet pour fournir leur service à leurs abonnés), ce qui signifie là encore des sources de données supplémentaires à combiner intelligemment.