Présidentielle : le big data éliminé dès le premier tour, revanche des sondages

 |   |  1240  mots
Emmanuel Macron et Marine Le Pen se sont qualifiés au second tour de l'élection présidentielle. Un résultat conforme aux sondages, mais différents de celui pronostiqué par les experts du big data.
Emmanuel Macron et Marine Le Pen se sont qualifiés au second tour de l'élection présidentielle. Un résultat conforme aux sondages, mais différents de celui pronostiqué par les experts du big data. (Crédits : Reuters)
Après une série de plusieurs échecs électoraux, les sondages ont su anticiper le second tour de l’élection présidentielle entre Emmanuel Macron et Marine Le Pen. Pas le big data, qui voyait François Fillon se qualifier. Un revers important qui jette le doute sur la pertinence de leurs méthodes.

Le « match dans le match » entre le big data et les sondages, entre la technologie et la bonne vieille méthode de mesure des intentions de vote, a finalement tourné en faveur des sondeurs au soir du premier tour de l'élection présidentielle. Les spécialistes du big data, pourtant auréolés par leurs précédents succès là où les sondages n'avaient rien vu venir, repartent la queue entre les jambes.

     | Lire. Présidentielle 2017 : les résultats définitifs du premier tour

Surtout qu'encore une fois, leurs prédictions contredisaient celles des spécialistes de l'opinion. Filteris, Predict my president et Vigiglobe, en se basant sur des méthodologies différentes d'analyse du web et des réseaux sociaux, misaient sur la qualification de François Fillon au second tour. Mais le Sarthois a terminé troisième. De leur côté, les sondages ont su correctement identifier l'ordre du carré de tête et donner une estimation des voix conforme aux résultats. De quoi faire oublier, pour un temps, leurs précédents ratés.

Au lendemain de la soirée électorale, les sondages poussent donc un gros « ouf » de soulagement.

« Depuis le Brexit, Trump et les primaires en France, nous avons réfléchi aux biais de nos méthodes. Le premier tour de la présidentielle avait valeur de test. Il confirme plusieurs choses. D'abord que les sondages restent l'outil le plus efficace pour mesurer l'état de l'opinion. Puis que l'élection présidentielle est la plus facile à prédire pour nous, car la participation y est traditionnellement plus forte, donc l'imprécision est moindre », explique Bruno Jeanbart, le directeur général adjoint de l'institut Opinion Way, à La Tribune.

Une théorie qui permet de justifier le fiasco des primaires à droite, à l'automne dernier, un "scrutin atypique mobilisant une très faible portion de l'électorat".

Amende honorable

A l'inverse, les spécialistes du big data font amende honorable. Fortement attaqué sur Twitter, Filteris, qui prédisait Marine Le Pen à 22,72% suivie de François Fillon à 21,57% vendredi 21 avril à 23h30, a réagi avec sportivité :

Dans un communiqué, l'entreprise canadienne admet que « Filteris, qui n'est pas un institut de sondage, n'a pas atteint le degré de précision qu'il escomptait ». L'écart entre sa prédiction et le score final d'Emmanuel Macron est important : 3,83 points. Davantage, donc, que la marge d'erreur des sondages. Mais la société se rassure en calculant que l'écart moyen entre les résultats officiels et ses propres mesures s'élève à seulement 1,07 point sur les 11 candidats. Et relativise en rappelant que « les analyses issues du big data [...] apportent des éclairages pertinents et permettent de détecter des tendances, comme ce fut le cas pour Jean-Luc Mélenchon », dont la remontée a été détectée sur internet avant d'être prise en compte par les sondages.

De son côté, Vigiglobe reconnaît avoir raté Marine Le Pen, qu'il voyait derrière le trio Fillon-Macron-Mélenchon. La startup française invoque aussi l'évolution des tendances dans les 48 dernières heures, lorsqu'il était interdit de publier des mesures d'opinion.

Le big data électoral, de la « charlatanerie » ?

Quoi qu'il en soit, le procès du big data électoral est bel et bien enclenché. Pour Nicolas Vanderbiest, chercheur à l'Université catholique de Louvain, ces méthodologies basées sur l'analyse quantitative et qualitative des messages postés sur internet relèvent carrément de la « charlatanerie ».

« La tonalité, soit le fait de classer un contenu comme étant neutre, positif ou négatif, est extrêmement tendancieuse. Lorsqu'on soumet une occurrence à une machine et la même occurrence à un humain, leurs avis divergent à hauteur de 30% », tacle-t-il dans une tribune.

L'universitaire pointe du doigt les nombreux « biais » des réseaux sociaux : une population plus jeune, plus urbaine et plus connectée sur Twitter que la moyenne des électeurs, la capacité des équipes des candidats à générer le buzz, l'existence des « bots » et des faux comptes qui gonflent le volume des messages...

Pour d'autres chercheurs, à l'image d'Antoine Bevort, professeur émérite de sociologie au Conservatoire national des arts et métiers (CNAM), le web et les réseaux sociaux restent, malgré tout, de « bons thermomètres de l'opinion politique ».

« Les données des sites et réseaux sociaux permettent d'analyser de façon documentée cette arène importante du débat politique. Les études empiriques diversifiées menées depuis l'été 2016 mettent en évidence la faisabilité, la crédibilité et l'intérêt de ces approches », expliquait-il en janvier sur le site de Libération, renvoyant à plusieurs études scientifiques sérieuses.

Manque de données sur les scrutins passés

Contre toute attente, Bruno Jeanbart, d'Opinion Way, est plutôt de cet avis. Le sondeur ne rejette pas la pertinence du big data électoral. Il estime en revanche que l'erreur de Filteris et de Predict my President est d'avoir voulu traduire des tendances observées sur internet en intentions de vote. Un terrain sur lequel ne s'est pas risqué Vigiglobe.

« Il est vrai que le big data avait réussi à percevoir la possibilité pour Fillon de se qualifier au second tour des primaires. Mais convertir des tendances en prédictions de résultats électoraux, c'est peut-être franchir un cap qui va un peu trop loin », affirme-t-il.

Effectivement, si le web analytics (analyse d'audience des sites) et le social media monitoring (analyse des données des réseaux sociaux) sont des outils qui ont prouvé leur efficacité pour les entreprises, ces approches demeurent balbutiantes lorsqu'il s'agit d'analyse sociopolitique. Leendert de Voogd, le Pdg de Vigiglobe, en convient. « On manque encore de données, notamment sur les scrutins passés. Pouvoir comparer nos tendances avec des situations similaires dans le passé aurait permis de mieux affiner l'analyse. » Et de poursuivre : « C'est un champ de recherche fantastique pour l'avenir, car les deux approches sont complémentaires. »

Vers une collaboration big data / instituts de sondages ?

Les instituts de sondage eux-mêmes tentent peu à peu d'apprivoiser le big data. Sans l'intégrer, du moins pour l'instant, à leurs mesures d'opinion. BVA a posé un orteil sur ce terrain en 2016 avec son dispositif Pop 2017, destiné à « écouter les réseaux sociaux » pour en tirer des enseignements complémentaires sur l'état de l'opinion.

Dès 2014, Opinion Way a lancé son propre département dédié au « social media research ». L'objectif : « modéliser » les résultats de leurs enquêtes en prenant en compte non seulement les données issues de la Toile, mais aussi celles des scrutins passés et des recensements de population. « Lorsque nous saurons mieux l'utiliser, le big data permettra mieux appréhender la fragmentation de l'opinion, un phénomène que nous observons de plus en plus dans la vie politique », indique Bruno Jeanbart, qui précise avoir déjà travaillé avec Vigiglobe.

Reste que les sondages ont réussi à redorer leur blason avec le premier tour de l'élection présidentielle. Mais peut-être pas pour longtemps. Les prochaines échéances électorales, à commencer par le second tour de l'élection présidentielle, le 7 mai, et les élections législatives de juin, seront autant d'occasion de tester leur solidité. Et, pour les spécialistes du big data, d'affiner leurs outils pour revenir dans la course.

Réagir

Votre email ne sera pas affiché publiquement
Tous les champs sont obligatoires

Commentaires
a écrit le 25/04/2017 à 20:32 :
Aujourd'hui la presse enterre tout aussi vite le big data qu'elle ne l'avait acclamé. Peu importe le big data est juste un traitement d'information comme un autre mais à grande échelle, et ce sont surtout les modèles et algorithmes utilisés pour déterminer les intentions de votes qui sont à affiner, revoir ou même repenser. Les sondages se basent sur des échantillons, le big data sur des océans, c'est la manière de converger, ce qu'on en fait, qui est décisive. C'est sûrement là que les sondages ont plus d'expérience.
a écrit le 25/04/2017 à 9:06 :
les methodes sont complementaires
ils suffit de voir quels sont leurs fonctionnement respectif, et de se rappeler ce qu'on a appris en cours ( enfin pour ceux qui ont eu des cours, ce qui n'est pas le cas d'une partie des gens....)
apres c'est heureux de voir que certains pointent certains biais ( y en a d'autres); au debut du siecle dernier, y avait aussi des biais qu'on n'a pas vu tout de suite......
last but not least, il faut en general utiliser encore d'autres methodes pour avoir confirmation ou pas des chiffres.........
le score donne par les ingenieurs telecoms, a deux chiffres apres la virgule, faisaient sourire tout statisticien qui se respecte
a écrit le 25/04/2017 à 8:33 :
La seule façon de connaitre l'avis des électeurs est de leur demander directement. Mesurer la présence sur les réseaux sociaux et redresser ensuite les chiffres est juste une mesure de la propagande et du tripatouillage. C'est du simple bon sens.
Par ailleurs, Filteris annonce avoir prévu l'élection de Trump mais oublie de préciser que Trump était majoritaire dans les estimations Filteris et a été élu par une minorité en raison des particularités du système américain. C'est donc juste un gros coup de chance qui masque les autres échecs retentissants de la méthode.
a écrit le 24/04/2017 à 23:25 :
Le big data au tapis fillon n'est pas en tête et n'est même pas au deuxième tour, j'avais raison
a écrit le 24/04/2017 à 20:56 :
Les réseaux sociaux, c'est pas la vraie vie, l'oublier c'est comme retomber en enfance et croîre au père Noêl. Ca peut être fun mais faut pas compter dessus pour les choses vitales.
a écrit le 24/04/2017 à 19:00 :
Quelles que soient les représentations et les modèles adoptés, d'une part,
Quels que soient les algorithmes retenus pour les servir, d'autre part,
La convergence et la robustesse sont parmi les critères les plus importants importants pour l'évaluation des solutions proposées, et donc leur commercialisation.
Là, on est clairement en présence d'un déficit rédhibitoire de robustesse : en témoigne la facilité avec laquelle des biais "inidentifiables" peuvent être introduits est déconcertante ..., même si elle nécessite une certaine "logistique".

Faut-il tirer un trait sur l'approche ? Définitivement non ! Les promoteurs de telles approches doivent cependant s'employer à en améliorer la robustesse. De beaux chantiers à venir, si j'en ai bien saisi le principe et l'ambition.

Au-delà, la recherche d'alternatives aux sondages doit, au contraire, être encouragée en capitalisant notamment sur les "ressources" disponibles. Les analystes qualitatifs et les mathématiciens ont de beaux jours devant eux !

PS.
Malgré ses mauvaises estimations sur les résultats d'hier, il faut reconnaître que cette approche a permis d'entretenir un optimisme, une conviction et une énergie chez de nombreux candidats, leurs équipes et leur militants.
Rien que ça, c'est déjà un gros succès !
Réponse de le 24/04/2017 à 21:01 :
Le problème c'est que certains citoyens qui n'ont pas votre culture scientifique prennent les résultats de ces études au sérieux et basent plus ou moins leur votes sur une information erronée.

Je préfère donc recommander aux équipes et aux candidats en mal de motivation, les herbes qui font rire ou un excellent breuvage. Ça coute moins cher et c'est plus convivial.
Réponse de le 25/04/2017 à 9:14 :
je vais repondre partiellement.....
j'avais discute avec un jeune docteur en ' datascience'.... je lui ai demande s'il avait le niveau en maths et le background pour comprendre ce qu'il faisait quand il utilisait des methodes de deeplearning et de machine learning........
il m'a dit ' on n'a pas besoin de comprendre, on sait que ca marche' !!!! reponse pathetique, la theorie permet de comprendre... quand ca ne marche pas comme prevu! ( ce qui est souvent le cas!!!)
il faisait certainement reference a yves lecun qui dit ' si on devait demontrer, on n'aurait pas les algorithmes utilises en reconnaissance vocale', mais je pense qu'il n'a lu qu'une partie de la phrase.....
a écrit le 24/04/2017 à 17:55 :
On ne voit pas en quoi consulter le site d'un candidat s'analyserait comme une adhésion à sa personne. Quant à l'utilisation des scrutins passés, il paraît extravagant de se baser sur ce paramètre pour Emmanuel Macron, puisque son courant est totalement inédit.

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

 a le à :