"Bugs Data"... ou les trois bugs majeurs du Big Data

 |   |  747  mots
Julien Pillot, Les 3 bugs majeurs du big data, une vidéo Precepta Stratégiques
La Tribune publie chaque jour des extraits issus des analyses diffusées sur Xerfi Canal. Aujourd'hui, les trois bugs majeurs du Big Data...

Et s'il y avait un mirage du big data ? Et si le Big Data ne tenait pas toutes ses promesses, notamment celles avancées par certains cabinets de conseil ? Il faut dire que les modèles centrés sur l'analyse quantitative des données souffrent de nombreuses failles que révélaient encore récemment Gary Marcus et Ernest Davis dans l'article « Eight Problems with Big Data ». Nous allons mettre l'accent ici sur 3 faiblesses majeures avec des exemples évocateurs des limites actuelles des modèles prédictifs.

Pas de "cygne noir" dans les modèles

Le premier bug du Big Data, c'est qu'il tend à supprimer les données aberrantes, où plutôt toute donnée qui ne suivrait pas le modèle statistique dominant. Ceux qui se souviennent du film « Minority Report » de Steven Spielberg auront retenu que les données écartées sont parfois celles qui véhiculent les informations de meilleure qualité. Or, en supprimant systématiquement toute donnée contraire à la loi statistique dominante, l'algorithme en vient souvent à confirmer ce que l'on savait déjà !

Prenons l'exemple de Predpol, le logiciel de prévention des crimes et délits déployé dans certaines grandes villes américaines. En dépit d'effets d'annonces flatteurs, Predpol a jusqu'ici surtout réussi à établir que 80% des crimes ont lieu sur 20% du territoire... ce qui n'est rien d'autre de la vieille loi de Pareto des 80/20.

La non-pondération des données

Le deuxième bug du Big Data concerne le manque de fiabilité des résultats. Le Big Data a, en effet, la fâcheuse tendance à aspirer et traiter un maximum de données, mais sans faire de tri qualitatif. Et nul ne réchappe à ce problème, pas même Google.

En 2011, Google se vantait dans la revue Nature de pouvoir prédire l'apparition et l'évolution des épidémies de grippe grâce à son algorithme maison « Flu Trends ». On peut imaginer l'enthousiasme devant cet outil qui croisait les recherches de mots-clés tels que « grippe », « toux », « fièvre » et d'autres, avec l'origine géographique des requêtes. Google prétendait ainsi suivre l'évolution de la maladie avec un temps d'avance sur les organismes de santé officiels.

Mais plus dur a été le constat sur la durée : les épidémies étaient totalement surestimées. L'une des raisons, exposée dans le très sérieux le magazine Science, mettait en cause la qualité des données récoltées. En effet, en période d'évolution épidémique, les requêtes sur Google étaient déformées et exagérées, et les résultats faussés. Sans solution face à ce biais important, Google a dû stopper son expérience en septembre dernier, et les apôtres du Big Data en ont été pour leurs frais.

Pas de prospective des modèles face aux ruptures

Le troisième bug du Big Data, c'est qu'il ne peut traiter ce qui n'a pas été détecté et anticipé. Cela en fait un outil peu performant face à la nouveauté et aux ruptures. Vous le constatez tous les jours avec vos smartphones pour envoyer vos messages : les logiciels d'écriture prédictive, qui fonctionnent avec des algorithmes de type Big data, sont très efficaces sur vos expressions courantes, et surtout avec des suites usuelles de mots telles que « à tout à l'heure ». Mais ils se révèlent d'une faiblesse navrante quand il s'agit d'appréhender des expressions créatives comme « je te calcule trop pas » ou « ça passe crème ». Ce que met bien en relief cet exemple, c'est l'impossibilité du Big Data à prendre en compte correctement l'imprévu, à faire face à l'incertitude.

Alors, pensons à ce qui se passe quand les résultats des algorithmes se percutent dans une configuration imprévue. Prenons un exemple réel dans la finance : en mai 2010, un flash crash de 14 minutes a ébranlé l'ensemble des places financières, plongeant les traders dans l'angoisse. Après des semaines d'enquête, l'explication tombe. Et elle fait froid dans le dos : d'erreur en erreur d'interprétation, les algorithmes de trading haute fréquence, qui traitent les 2/3 des transactions boursières du NYSE, se sont emballés hors de tout contrôle. Une seule solution : tout débrancher !

Voilà une preuve que lorsque les Frankenstein mathématiques échappent à leurs créateurs, on est soulagé que le bon sens humain reprenne le pouvoir.

>> Plus de vidéos sur le site Xerfi Canal, le médiateur du monde économique

Réagir

Votre email ne sera pas affiché publiquement
Tous les champs sont obligatoires

Commentaires
a écrit le 13/01/2016 à 8:54 :
ok pour ' les phenomenes de rupture'
d'un autre cote, aucun modele de prevision ne les prevoit ( on les voit/detecte expost, et encore!).... il existe des methodes pour ca, mais c'est loin d'etre fiable a 100%!
pour le reste, je vais vous dire d'ou vient le pb........ vous avez d'un cote des boites qui vendent des logiciels ou autres ( erp, aps, crm, decisionnel divers, big data...), et de l'autre des boites qui n'y comprennent rien, mais qui pensent que ca peut etre interessant, alors elles prennent ' la solution reference', qui sera parametree par des gens des societes de conseils.........apres, ca marche ou ca marche pas correctement, c'est un autre pb, ca depend de ce que vous avez signe dans le cahier des charges que vous n'avez pas compris!
pour les donnees, si au lieu de croire au logiciel miracle vous creez vous meme la solution qui repond a vos besoin, les donnees atypiques, et la purte des donnees ne sont pas un souci
mais ca ne correspond pas a la facon dont les boites fonctionnent ' acheter un logiciel qui rendra intelligent des gens incompetents - et pas tjs bien payes-'

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

 a le à :