Présidentielle : le big data éliminé dès le premier tour, revanche des sondages

Par Sylvain Rolland | 24/04/2017, 17:46 | 1240 mots

Emmanuel Macron et Marine Le Pen se sont qualifiés au second tour de l'élection présidentielle. Un résultat conforme aux sondages, mais différents de celui pronostiqué par les experts du big data.

Après une série de plusieurs échecs électoraux, les sondages ont su anticiper le second tour de l’élection présidentielle entre Emmanuel Macron et Marine Le Pen. Pas le big data, qui voyait François Fillon se qualifier. Un revers important qui jette le doute sur la pertinence de leurs méthodes.

Le « match dans le match » entre le big data et les sondages, entre la technologie et la bonne vieille méthode de mesure des intentions de vote, a finalement tourné en faveur des sondeurs au soir du premier tour de l'élection présidentielle. Les spécialistes du big data, pourtant auréolés par leurs précédents succès là où les sondages n'avaient rien vu venir, repartent la queue entre les jambes.

| Lire. Présidentielle 2017 : les résultats définitifs du premier tour

Surtout qu'encore une fois, leurs prédictions contredisaient celles des spécialistes de l'opinion. Filteris, Predict my president et Vigiglobe, en se basant sur des méthodologies différentes d'analyse du web et des réseaux sociaux, misaient sur la qualification de François Fillon au second tour. Mais le Sarthois a terminé troisième. De leur côté, les sondages ont su correctement identifier l'ordre du carré de tête et donner une estimation des voix conforme aux résultats. De quoi faire oublier, pour un temps, leurs précédents ratés.

Au lendemain de la soirée électorale, les sondages poussent donc un gros « ouf » de soulagement.

« Depuis le Brexit, Trump et les primaires en France, nous avons réfléchi aux biais de nos méthodes. Le premier tour de la présidentielle avait valeur de test. Il confirme plusieurs choses. D'abord que les sondages restent l'outil le plus efficace pour mesurer l'état de l'opinion. Puis que l'élection présidentielle est la plus facile à prédire pour nous, car la participation y est traditionnellement plus forte, donc l'imprécision est moindre », explique Bruno Jeanbart, le directeur général adjoint de l'institut Opinion Way, à La Tribune.

Une théorie qui permet de justifier le fiasco des primaires à droite, à l'automne dernier, un "scrutin atypique mobilisant une très faible portion de l'électorat".

Amende honorable

A l'inverse, les spécialistes du big data font amende honorable. Fortement attaqué sur Twitter, Filteris, qui prédisait Marine Le Pen à 22,72% suivie de François Fillon à 21,57% vendredi 21 avril à 23h30, a réagi avec sportivité :

Dans un communiqué, l'entreprise canadienne admet que « Filteris, qui n'est pas un institut de sondage, n'a pas atteint le degré de précision qu'il escomptait ». L'écart entre sa prédiction et le score final d'Emmanuel Macron est important : 3,83 points. Davantage, donc, que la marge d'erreur des sondages. Mais la société se rassure en calculant que l'écart moyen entre les résultats officiels et ses propres mesures s'élève à seulement 1,07 point sur les 11 candidats. Et relativise en rappelant que « les analyses issues du big data [...] apportent des éclairages pertinents et permettent de détecter des tendances, comme ce fut le cas pour Jean-Luc Mélenchon », dont la remontée a été détectée sur internet avant d'être prise en compte par les sondages.

De son côté, Vigiglobe reconnaît avoir raté Marine Le Pen, qu'il voyait derrière le trio Fillon-Macron-Mélenchon. La startup française invoque aussi l'évolution des tendances dans les 48 dernières heures, lorsqu'il était interdit de publier des mesures d'opinion.

Le big data électoral, de la « charlatanerie » ?

Quoi qu'il en soit, le procès du big data électoral est bel et bien enclenché. Pour Nicolas Vanderbiest, chercheur à l'Université catholique de Louvain, ces méthodologies basées sur l'analyse quantitative et qualitative des messages postés sur internet relèvent carrément de la « charlatanerie ».

« La tonalité, soit le fait de classer un contenu comme étant neutre, positif ou négatif, est extrêmement tendancieuse. Lorsqu'on soumet une occurrence à une machine et la même occurrence à un humain, leurs avis divergent à hauteur de 30% », tacle-t-il dans une tribune.

L'universitaire pointe du doigt les nombreux « biais » des réseaux sociaux : une population plus jeune, plus urbaine et plus connectée sur Twitter que la moyenne des électeurs, la capacité des équipes des candidats à générer le buzz, l'existence des « bots » et des faux comptes qui gonflent le volume des messages...

Pour d'autres chercheurs, à l'image d'Antoine Bevort, professeur émérite de sociologie au Conservatoire national des arts et métiers (CNAM), le web et les réseaux sociaux restent, malgré tout, de « bons thermomètres de l'opinion politique ».

« Les données des sites et réseaux sociaux permettent d'analyser de façon documentée cette arène importante du débat politique. Les études empiriques diversifiées menées depuis l'été 2016 mettent en évidence la faisabilité, la crédibilité et l'intérêt de ces approches », expliquait-il en janvier sur le site de Libération, renvoyant à plusieurs études scientifiques sérieuses.

Manque de données sur les scrutins passés

Contre toute attente, Bruno Jeanbart, d'Opinion Way, est plutôt de cet avis. Le sondeur ne rejette pas la pertinence du big data électoral. Il estime en revanche que l'erreur de Filteris et de Predict my President est d'avoir voulu traduire des tendances observées sur internet en intentions de vote. Un terrain sur lequel ne s'est pas risqué Vigiglobe.

« Il est vrai que le big data avait réussi à percevoir la possibilité pour Fillon de se qualifier au second tour des primaires. Mais convertir des tendances en prédictions de résultats électoraux, c'est peut-être franchir un cap qui va un peu trop loin », affirme-t-il.

Effectivement, si le web analytics (analyse d'audience des sites) et le social media monitoring (analyse des données des réseaux sociaux) sont des outils qui ont prouvé leur efficacité pour les entreprises, ces approches demeurent balbutiantes lorsqu'il s'agit d'analyse sociopolitique. Leendert de Voogd, le Pdg de Vigiglobe, en convient. « On manque encore de données, notamment sur les scrutins passés. Pouvoir comparer nos tendances avec des situations similaires dans le passé aurait permis de mieux affiner l'analyse. » Et de poursuivre : « C'est un champ de recherche fantastique pour l'avenir, car les deux approches sont complémentaires. »

Vers une collaboration big data / instituts de sondages ?

Les instituts de sondage eux-mêmes tentent peu à peu d'apprivoiser le big data. Sans l'intégrer, du moins pour l'instant, à leurs mesures d'opinion. BVA a posé un orteil sur ce terrain en 2016 avec son dispositif Pop 2017, destiné à « écouter les réseaux sociaux » pour en tirer des enseignements complémentaires sur l'état de l'opinion.

Dès 2014, Opinion Way a lancé son propre département dédié au « social media research ». L'objectif : « modéliser » les résultats de leurs enquêtes en prenant en compte non seulement les données issues de la Toile, mais aussi celles des scrutins passés et des recensements de population. « Lorsque nous saurons mieux l'utiliser, le big data permettra mieux appréhender la fragmentation de l'opinion, un phénomène que nous observons de plus en plus dans la vie politique », indique Bruno Jeanbart, qui précise avoir déjà travaillé avec Vigiglobe.

Reste que les sondages ont réussi à redorer leur blason avec le premier tour de l'élection présidentielle. Mais peut-être pas pour longtemps. Les prochaines échéances électorales, à commencer par le second tour de l'élection présidentielle, le 7 mai, et les élections législatives de juin, seront autant d'occasion de tester leur solidité. Et, pour les spécialistes du big data, d'affiner leurs outils pour revenir dans la course.

Technos & Medias

Présidentielle : le big data éliminé dès le premier tour, revanche des sondages

Amende honorable

Le big data électoral, de la « charlatanerie » ?

Manque de données sur les scrutins passés

Vers une collaboration big data / instituts de sondages ?