Sondages et modèles prédictifs : les leçons de la présidentielle

 |   |  1986  mots
(Crédits : BPI France)
A l'ère des réseaux sociaux et des « fake news » qui les inondent, l'élection présidentielle qui va - enfin ! - se terminer en France aura été particulièrement riche d'enseignements. C'est vrai notamment des sondages et autres modèles prédictifs qui ont été diffusés tout au long de la campagne.

Les sondages ont ainsi été à nouveau l'objet de toutes les critiques, parfois contradictoires : ils manipuleraient l'élection mais seraient en même temps dénués de fiabilité. Si leur influence sur les choix d'une partie du corps électoral ne fait guère de doute, leur pertinence s'est en tout cas imposée, une fois de plus, au soir du premier tour. Car contrairement aux idées reçues de beaucoup, les sondages ont très souvent raison. Si toutefois on sait les lire.

Par exemple, le vote pour le Brexit était bien dans la marge d'erreur des sondages en juin 2016, avec 1 à 2 points de retard sur les intentions du « Remain ». De même, Hillary Clinton a remporté le vote populaire de plus de 2 points à la dernière présidentielle américaine, ce que prévoyaient en moyenne les sondages au moment du vote. Environ 45 états des Etats-Unis ont bien voté comme prévu, mais une poignée a déjoué les prévisions, de très peu, et la mécanique du collège électoral a permis à Trump de l'emporter (0,06% des suffrages du pays faisant la différence sur 3 états). En France, si le premier tour du primaire de la droite a été moins bon, le second tour et les primaires de la gauche (en 2011 et 2017) n'ont pas réservé de grosse surprise. En fait, les sondages ne sont jamais loin de la vérité, et en moyenne, ils prédisent très bien les résultats électoraux, surtout lorsqu'il s'agit de la réédition d'élections ayant une histoire précise et documentée (ce qui n'était pas le cas de la primaire de la droite).

Rien de surprenant à cela : il y a un fondement scientifique indiscutable aux sondages. Un sondage, pour faire vite, c'est un « tirage » au sein d'une population donnée qui, grâce aux lois des probabilités, permet de décrire l'ensemble de cette population avec un certain degré de confiance. Pour mieux se représenter les choses, imaginons une urne géante remplie des bulletins de vote de tous les participants à l'élection, soit près de 36 millions dimanche dernier. Supposons qu'ils étaient bien mélangés, et que chacun ait la même probabilité d'être choisi. La beauté des probabilités, c'est qu'en tirant au sort quelques centaines ou milliers d'entre eux, il y a de très grandes chances que nous connaissions à peu de choses près le résultat du dépouillement intégral des 36 millions de bulletins.

Dans la vie réelle, les choses sont bien sûr plus compliquées. Il n'y a pas de bulletins de vote déjà placés dans les urnes, mais des réponses données à une question sur l'élection à venir. Surtout, il n'y a pas de tirage réellement aléatoire, car tous les votants ne peuvent être contactés avec la même facilité (internet, téléphone, horaires...) ou parce qu'ils n'ont la même propension à répondre. Le sondeur peut alors essayer de corriger cela en amont, en constituant des échantillons qui gomment ces difficultés, et/ou en aval, en « redressant » les résultats obtenus. Comme il a une pratique d'élections et de sondages passés, il peut aussi en tenir compte dans ces estimations.

Tous ces points, depuis un tirage « idéal » jusqu'aux corrections décrites précédemment, en passant par les techniques d'échantillonnage, font l'objet de décennies de travaux mathématiques parfaitement documentés, qui permettent d'établir la probabilité d'un sondage de viser juste dans un certain intervalle. Typiquement, si un sondage indique 20% d'intentions de vote, cela voudra dire qu'il y a par exemple 95% de chances que ce vote soit compris entre 18 et 22%. Il est donc possible que ce soit plus ou moins, mais très peu probable, et de moins en moins au fur et à mesure qu'on s'éloigne de la moyenne de la fourchette indiquée.

Obscurantisme

La dénonciation des sondages, quasi hystérique par les militants de tous bords quand ils ne leur conviennent pas, relève donc de l'obscurantisme. Un grand classique des campagnes électorales. Sauf que cette année, il s'est doublé d'un autre phénomène auprès du grand public : les méthodes alternatives. En particulier celles invoquant les mots magiques : « big data », « trafic web », « social buzz »... Au traditionnel déni de la pertinence des sondages est donc venue s'ajouter une contestation plus subtile, celle de méthodologies prétendant les ringardiser.

Premier mauvais point, pour des méthodes se prétendant scientifiques : surfer souvent complaisamment sur la contestation de la validité des sondages traditionnels, et donc épouser un argumentaire irrationnel. Deuxième et plus importante faiblesse : ne pas détailler les méthodologies employées, dans la quasi-totalité des cas.

Or, si chaque société a bien sûr un droit légitime à protéger sa propriété intellectuelle et ses « secrets de fabrication », encore faudrait-il, dans le domaine dont on parle, qu'elle puisse revendiquer des travaux théoriques sérieux et transparents sur lesquels elle appuie sa technologie. Comme indiqué, de tels travaux pullulent en théorie des sondages, et sont l'objet d'échanges et de discussions ouverts dans la communauté scientifique concernée. Rien de tout ça chez nos spécialistes proclamés des « big data », qui se contentent de quelques vagues explications et de faire miroiter des nombres vertigineux de données analysées.

En l'absence de descriptions méthodologiques détaillées pouvant être analysées en toute transparence, il y a donc de quoi douter sérieusement de leur rigueur et de leur pertinence. En effet, s'il est tout à fait possible de traiter aujourd'hui des volumes considérables de données en un temps très rapide, si dans certains domaines cela est particulièrement pertinent et a déjà atteint une certaine maturité, la matière électorale ne semble pas du tout s'y prêter. Que signifie par exemple le nombre d'occurrences d'un nom sur des sites Internet ou les réseaux sociaux, qui sont par ailleurs fréquentés par des publics certes larges, mais non représentatifs de la population ? De l'intérêt, du rejet, de l'adhésion... ? Les traitements sémantiques permettant de qualifier la nature des sentiments associés à une mention sont encore bien trop peu fiables pour s'en assurer, si tant est que l'auteur de la mention est tout simplement une intention associée à celle-ci. Tout comme il est difficile de faire le déport entre de vrais électeurs potentiels d'une part, et les comptes et profils multiples, l'action militante de petits groupes, les acteurs professionnels, les robots intervenant sur les sites d'autre part. Tout ce bruit n'est certes pas inintéressant à observer, mais il est extrêmement difficile à qualifier, contrairement aux réponses à une question précise sur une intention de vote. Et les informations sur ses émetteurs sont le plus souvent inexistantes ou invérifiables.

Les "bidouilleurs" du Big Data

S'il est aujourd'hui facile de collecter énormément d'informations circulant sur le net, de leur appliquer des tonnes de traitements et d'algorithmes, il paraît très improbable que ces opérations aboutissent à quoi que ce soit de pertinent pour prédire le résultat d'une élection. Des observateurs peu au fait de ces questions ont certes pu être subjugués par les seules évocations du « big data » et des « algorithmes », mais aujourd'hui quantité de bidouilleurs peuvent s'en revendiquer sans que leurs méthodologies aient pour autant la moindre pertinence. C'est bien là où il faut faire la différence entre ce qui est réellement scientifique et ce qui n'en a que l'apparence trompeuse, derrière un rideau de fumée de traitements technologiques.

Ajoutons que certains de ces nouveaux gourous n'ont pas rendu service à la crédibilité de leurs outils, d'abord par manque d'information sur leurs méthodologies, mais aussi en donnant au quotidien des résultats au centième de pourcent, par exemple. Une précision ridicule et totalement contraire à la précaution probabiliste qui devrait entourer toute approche un peu sérieuse en la matière.

Ces nouveaux acteurs ont toutefois connu un succès considérable dans la campagne, et passionné les réseaux sociaux. Surtout lorsqu'ils donnaient des résultats flattant les préférences de certains militants. Or, même s'ils ont été démentis par le résultat de l'élection, contrairement aux sondages, nul doute qu'ils continueront de faire parler d'eux lors des prochains scrutins. Peut-on en rester là, se satisfaire d'une situation confuse propice aux « fake news » et aux manipulations de toute nature ?

Mettre fin au faux blackout des sondages avant l'élection

En France, les textes imposent aux sondeurs de donner des précisions sur les enquêtes publiées, notamment l'échantillon, la date de réalisation, les marges d'erreur. Par ailleurs, si leurs méthodologies précises ne sont pas publiques, car les instituts considèrent qu'il s'agit de leur « secret industriel », elles sont transmises à une commission indépendante chargée d'en étudier le sérieux.

Dans la même veine, à partir du moment où un acteur diffuse une méthode alternative sensée prévoir ou prédire un résultat électoral, il serait légitime de lui appliquer la même exigence : davantage d'informations publiques et des détails très précis transmis à une commission indépendante. Qui pourrait par exemple labelliser publiquement la méthodologie employée. Difficile d'éviter sans cela que des charlatans ou des manipulateurs essaient de tromper le public, quelles que puissent être leurs motivations, en prétendant s'appuyer sur une méthode plus fiable que les sondages. A partir du moment où ils se définissent comme concurrents de ces derniers, il n'y a pas de raison qu'ils ne fassent pas l'objet de la même régulation.

On pourrait a contrario tout déréguler. Ce serait probablement la porte ouverte à des sondages bidons dans tous les sens, et donc à toujours plus de manipulations. Au législateur de faire son choix, mais en l'appliquant de manière homogène à tous ceux qui prétendent publiquement mesurer l'opinion.

Un domaine mériterait en tout état de cause une adaptation d'une réglementation aujourd'hui désuète : les règles de publication des sondages à l'approche des élections. On l'a vu encore lors du premier tour de cette présidentielle. A compter de l'interdiction de la publication des sondages, le vendredi à minuit, les études supposées secrètes, confidentielles ou interdites pullulent sur les réseaux sociaux, jusqu'à la dernière minute de l'élection. Là aussi, tout et n'importe quoi peut être dit dans ces deux journées d'autant plus propices à tous les fantasmes que les instituts n'ont plus le droit de publier leurs sondages. A l'instar de la plupart des autres démocraties, il serait beaucoup plus sain de laisser libre cours à la publication des sondages, mais des vrais, dans cette dernière ligne droite. Si on leur prête de l'influence sur les électeurs, comment imaginer quelle serait réduite en arrêtant les publications le vendredi soir ? Et qui plus est en laissant libre cours à tous les fantasmes dans ces dernières heures avant le vote, sur des réseaux sociaux impossibles à contrôler ou réguler ? Il serait beaucoup plus sage de renoncer à ce black-out, tout comme pour les propos et actions de campagne, plutôt que de continuer à contraindre les seuls acteurs professionnels (journalistes, sondeurs...) à rester impuissants devant un flot de mensonges et de manipulations venant de toutes parts.

La science, la vraie, doit être au service du public, et ici de son information. Les outils qui l'utilisent, comme par exemple les sondages, doivent le faire en toute transparence et avec l'humilité requise par l'incertitude, les limites et les failles de leurs disciplines. En la matière, la rigueur et la probité participent aussi de la démocratie.

Réagir

Votre email ne sera pas affiché publiquement
Tous les champs sont obligatoires

Commentaires
a écrit le 29/04/2017 à 22:38 :
Juste un bémol sur cet excellent article : les sondages étant effectué par "quotas", ils ne sont pas "aléatoires" au niveau de la population totale, et donc les calculs mathématqiues de "probabilités d'intervalles de confiance" ne s'appliquent pas. Les chiffres donnés ne sont pas scientifiques, contrairement à ce que l'on nous dit, ce qui ne veut pas dire qu'ils ne sont pas hautement vraisemblables, car ce que l'intuition et la connaissance qualitative des phénomènes peuvent ajouter à la rigueur "scientifique", compensent largement ce défaut.
a écrit le 28/04/2017 à 23:07 :
Que ces nouvelles méthodes soient encore plus critiquables que les sondages​ j'en suis persuadé mais que cela place ces derniers sur un piédestal il n'a faut pas exagérer.

Oui on peut dire qu'ils orientent l'opinion tout en étant peu fiables et ce n'est pas parce que cette non fiabilité est avouée que cela lui enlève de la gravité.

Car non seulement le nom de seulement 4 candidats à été martelé pendant 9 mois mais en plus les enquêtes et autres articles qui leur ont été consacrés ont été largement multiplié.

Les sondages ne sont pas les seuls fautifs certes mais ils le sont bien aussi.

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

 a le à :