Présidentielle : le big data éliminé dès le premier tour, revanche des sondages

Après une série de plusieurs échecs électoraux, les sondages ont su anticiper le second tour de l’élection présidentielle entre Emmanuel Macron et Marine Le Pen. Pas le big data, qui voyait François Fillon se qualifier. Un revers important qui jette le doute sur la pertinence de leurs méthodes.

Sylvain Rolland

24 Avr 2017, 17:46

Emmanuel Macron et Marine Le Pen se sont qualifiés au second tour de l'élection présidentielle. Un résultat conforme aux sondages, mais différents de celui pronostiqué par les experts du big data.

Le « match dans le match » entre le big data et les sondages, entre la technologie et la bonne vieille méthode de mesure des intentions de vote, a finalement tourné en faveur des sondeurs au soir du premier tour de l'élection présidentielle. Les spécialistes du big data, pourtant auréolés par leurs précédents succès là où les sondages n'avaient rien vu venir, repartent la queue entre les jambes.

| Lire. Présidentielle 2017 : les résultats définitifs du premier tour

Surtout qu'encore une fois, leurs prédictions contredisaient celles des spécialistes de l'opinion. Filteris, Predict my president et Vigiglobe, en se basant sur des méthodologies différentes d'analyse du web et des réseaux sociaux, misaient sur la qualification de François Fillon au second tour. Mais le Sarthois a terminé troisième. De leur côté, les sondages ont su correctement identifier l'ordre du carré de tête et donner une estimation des voix conforme aux résultats. De quoi faire oublier, pour un temps, leurs précédents ratés.

Au lendemain de la soirée électorale, les sondages poussent donc un gros « ouf » de soulagement.

« Depuis le Brexit, Trump et les primaires en France, nous avons réfléchi aux biais de nos méthodes. Le premier tour de la présidentielle avait valeur de test. Il confirme plusieurs choses. D'abord que les sondages restent l'outil le plus efficace pour mesurer l'état de l'opinion. Puis que l'élection présidentielle est la plus facile à prédire pour nous, car la participation y est traditionnellement plus forte, donc l'imprécision est moindre », explique Bruno Jeanbart, le directeur général adjoint de l'institut Opinion Way, à La Tribune.

Une théorie qui permet de justifier le fiasco des primaires à droite, à l'automne dernier, un "scrutin atypique mobilisant une très faible portion de l'électorat".

Amende honorable

A l'inverse, les spécialistes du big data font amende honorable. Fortement attaqué sur Twitter, Filteris, qui prédisait Marine Le Pen à 22,72% suivie de François Fillon à 21,57% vendredi 21 avril à 23h30, a réagi avec sportivité :

Les sondeurs ont eu leur revanche bravo 😉c'est mérité. Mais les méthodes de collecte et d'analyse alternatives + IA se peaufinent.
— JÉRÔME COUTARD (@Filteris) 24 avril 2017

Dans un communiqué, l'entreprise canadienne admet que « Filteris, qui n'est pas un institut de sondage, n'a pas atteint le degré de précision qu'il escomptait ». L'écart entre sa prédiction et le score final d'Emmanuel Macron est important : 3,83 points. Davantage, donc, que la marge d'erreur des sondages. Mais la société se rassure en calculant que l'écart moyen entre les résultats officiels et ses propres mesures s'élève à seulement 1,07 point sur les 11 candidats. Et relativise en rappelant que « les analyses issues du big data [...] apportent des éclairages pertinents et permettent de détecter des tendances, comme ce fut le cas pour Jean-Luc Mélenchon », dont la remontée a été détectée sur internet avant d'être prise en compte par les sondages.

De son côté, Vigiglobe reconnaît avoir raté Marine Le Pen, qu'il voyait derrière le trio Fillon-Macron-Mélenchon. La startup française invoque aussi l'évolution des tendances dans les 48 dernières heures, lorsqu'il était interdit de publier des mesures d'opinion.

Le big data électoral, de la « charlatanerie » ?

Quoi qu'il en soit, le procès du big data électoral est bel et bien enclenché. Pour Nicolas Vanderbiest, chercheur à l'Université catholique de Louvain, ces méthodologies basées sur l'analyse quantitative et qualitative des messages postés sur internet relèvent carrément de la « charlatanerie ».

« La tonalité, soit le fait de classer un contenu comme étant neutre, positif ou négatif, est extrêmement tendancieuse. Lorsqu'on soumet une occurrence à une machine et la même occurrence à un humain, leurs avis divergent à hauteur de 30% », tacle-t-il dans une tribune.

L'universitaire pointe du doigt les nombreux « biais » des réseaux sociaux : une population plus jeune, plus urbaine et plus connectée sur Twitter que la moyenne des électeurs, la capacité des équipes des candidats à générer le buzz, l'existence des « bots » et des faux comptes qui gonflent le volume des messages...

Pour d'autres chercheurs, à l'image d'Antoine Bevort, professeur émérite de sociologie au Conservatoire national des arts et métiers (CNAM), le web et les réseaux sociaux restent, malgré tout, de « bons thermomètres de l'opinion politique ».

« Les données des sites et réseaux sociaux permettent d'analyser de façon documentée cette arène importante du débat politique. Les études empiriques diversifiées menées depuis l'été 2016 mettent en évidence la faisabilité, la crédibilité et l'intérêt de ces approches », expliquait-il en janvier sur le site de Libération, renvoyant à plusieurs études scientifiques sérieuses.

Manque de données sur les scrutins passés

Contre toute attente, Bruno Jeanbart, d'Opinion Way, est plutôt de cet avis. Le sondeur ne rejette pas la pertinence du big data électoral. Il estime en revanche que l'erreur de Filteris et de Predict my President est d'avoir voulu traduire des tendances observées sur internet en intentions de vote. Un terrain sur lequel ne s'est pas risqué Vigiglobe.

« Il est vrai que le big data avait réussi à percevoir la possibilité pour Fillon de se qualifier au second tour des primaires. Mais convertir des tendances en prédictions de résultats électoraux, c'est peut-être franchir un cap qui va un peu trop loin », affirme-t-il.

Effectivement, si le web analytics (analyse d'audience des sites) et le social media monitoring (analyse des données des réseaux sociaux) sont des outils qui ont prouvé leur efficacité pour les entreprises, ces approches demeurent balbutiantes lorsqu'il s'agit d'analyse sociopolitique. Leendert de Voogd, le Pdg de Vigiglobe, en convient. « On manque encore de données, notamment sur les scrutins passés. Pouvoir comparer nos tendances avec des situations similaires dans le passé aurait permis de mieux affiner l'analyse. » Et de poursuivre : « C'est un champ de recherche fantastique pour l'avenir, car les deux approches sont complémentaires. »

Vers une collaboration big data / instituts de sondages ?

Les instituts de sondage eux-mêmes tentent peu à peu d'apprivoiser le big data. Sans l'intégrer, du moins pour l'instant, à leurs mesures d'opinion. BVA a posé un orteil sur ce terrain en 2016 avec son dispositif Pop 2017, destiné à « écouter les réseaux sociaux » pour en tirer des enseignements complémentaires sur l'état de l'opinion.

Dès 2014, Opinion Way a lancé son propre département dédié au « social media research ». L'objectif : « modéliser » les résultats de leurs enquêtes en prenant en compte non seulement les données issues de la Toile, mais aussi celles des scrutins passés et des recensements de population. « Lorsque nous saurons mieux l'utiliser, le big data permettra mieux appréhender la fragmentation de l'opinion, un phénomène que nous observons de plus en plus dans la vie politique », indique Bruno Jeanbart, qui précise avoir déjà travaillé avec Vigiglobe.

Reste que les sondages ont réussi à redorer leur blason avec le premier tour de l'élection présidentielle. Mais peut-être pas pour longtemps. Les prochaines échéances électorales, à commencer par le second tour de l'élection présidentielle, le 7 mai, et les élections législatives de juin, seront autant d'occasion de tester leur solidité. Et, pour les spécialistes du big data, d'affiner leurs outils pour revenir dans la course.

Sujets les + lus

Sujets les + commentés

Sénégal : le nouveau président veut renégocier les contrats miniers et pétroliers, accusés de léser le pays

Annulations de vols en pagaille malgré la levée de grève de dernière minute du syndicat majoritaire des contrôleurs aériens

Gros coup pour Airbus, la low cost indienne Indigo va acheter 100 Airbus A350 pour passer au long-courrier

Faute de concurrence, la dette française attire plus que jamais les investisseurs

Allemagne : « l'homme malade de l'Europe » table sur un retournement économique au printemps

Commentaires 9

Razoul à écrit le 25/04/2017 à 20:32

Signaler

Aujourd'hui la presse enterre tout aussi vite le big data qu'elle ne l'avait acclamé. Peu importe le big data est juste un traitement d'information comme un autre mais à grande échelle, et ce sont surtout les modèles et algorithmes utilisés pour déte...

churchil à écrit le 25/04/2017 à 9:06

Signaler

les methodes sont complementaires ils suffit de voir quels sont leurs fonctionnement respectif, et de se rappeler ce qu'on a appris en cours ( enfin pour ceux qui ont eu des cours, ce qui n'est pas le cas d'une partie des gens....) apres c'est heur...

Eric à écrit le 25/04/2017 à 8:33

Signaler

La seule façon de connaitre l'avis des électeurs est de leur demander directement. Mesurer la présence sur les réseaux sociaux et redresser ensuite les chiffres est juste une mesure de la propagande et du tripatouillage. C'est du simple bon sens. Pa...

Fréderic à écrit le 24/04/2017 à 23:25

Signaler

Le big data au tapis fillon n'est pas en tête et n'est même pas au deuxième tour, j'avais raison

CQFD à écrit le 24/04/2017 à 20:56

Signaler

Les réseaux sociaux, c'est pas la vraie vie, l'oublier c'est comme retomber en enfance et croîre au père Noêl. Ca peut être fun mais faut pas compter dessus pour les choses vitales.

De l'importance de la robustesse en modélisation ! à écrit le 24/04/2017 à 19:00

Signaler

Quelles que soient les représentations et les modèles adoptés, d'une part, Quels que soient les algorithmes retenus pour les servir, d'autre part, La convergence et la robustesse sont parmi les critères les plus importants importants pour l'évalua...

Réponse de @ PS le 24/04/2017 à 21:01

Signaler

Le problème c'est que certains citoyens qui n'ont pas votre culture scientifique prennent les résultats de ces études au sérieux et basent plus ou moins leur votes sur une information erronée. Je préfère donc recommander aux équipes et aux candid...

Réponse de churchil le 25/04/2017 à 9:14

Signaler

je vais repondre partiellement..... j'avais discute avec un jeune docteur en ' datascience'.... je lui ai demande s'il avait le niveau en maths et le background pour comprendre ce qu'il faisait quand il utilisait des methodes de deeplearning et de m...

Avatar à écrit le 24/04/2017 à 17:55

Signaler

On ne voit pas en quoi consulter le site d'un candidat s'analyserait comme une adhésion à sa personne. Quant à l'utilisation des scrutins passés, il paraît extravagant de se baser sur ce paramètre pour Emmanuel Macron, puisque son courant est totale...

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

Technos & Medias

Présidentielle : le big data éliminé dès le premier tour, revanche des sondages

Amende honorable

Le big data électoral, de la « charlatanerie » ?

Manque de données sur les scrutins passés

Vers une collaboration big data / instituts de sondages ?

Newsletter - Tech & Médias