De l’importance des mathématiques dans les traitements de données

Gilles Babinet

Publié le 06 décembre 2017 à 09:00

Ajouter La Tribune à vos sources préférées

On a souvent tendance à oublier combien le déluge technologique auquel nous assistons au travers de la donnée ne serait pas grand chose sans les mathématiques. De surcroît, une très vaste majorité - peut être 95 à 98% - des données issues de l'internet sont « bruyantes », c'est à dire qu'elles sont non structurées et dynamiques, plutôt que statiques et convenablement rangées. Sans même évoquer le fait qu'elles peuvent être endommagées ou incomplètes. Par Gilles Babinet

Typiquement, les données issues des réseaux sociaux, de Facebook, Twitter ou Instagram sont principalement textuelles et donc nécessitent d'importants travaux pour les exploiter. Ceux qui ont une formation en mathématique, ou mieux encore en statistiques ont l'habitude de penser des données comme étant composé de vecteurs - une chaîne de chiffres et de coordonnées. Mais en ce qui concerne les données des réseaux sociaux ou de la vaste majorité du web, rien de tel. Pour pouvoir effectuer des traitements statistiques à partir de ces informations, il faut repenser totalement les approches technologiques usuelles. Cela signifie qu'il aura fallu créer de nouveaux outils mathématiques à partir des ensembles de données.

Cela soulève donc deux défis : il y a d'une part beaucoup plus de données et d'autre part, celles-ci ne sont pas rangées de la façon dont il le faudrait si on veut utiliser les outils traditionnels pour les traiter. Nombreux sont ceux qui soulignent qu'on ne peut pas se figurer la matière première de la big data comme une gigantesque feuille Excel, de la taille d'un parking d'hypermarché, sur laquelle se trouverait plutôt des données bien rangées. Il faut plutôt se figurer la big data comme un torrent de montagne, dont chaque goutte est un chiffre ou encore comme une photo ou une suite de photos. En apparence, tout cela paraît extrêmement désordonné et sans vraiment de sens, pourtant il est possible d'en extraire une quantité d'information impressionnante, pour peu que l'on accepte de changer de méthode.

Les solutions -car il ne s'agit pas d'une seule solution- viendront progressivement en associant élégamment plusieurs méthodes, parfois issues de disciplines très éloignées les unes des autres. On a vu qu'une partie de la réponse au traitement des données non-structurées s'est trouvé dans le traitement parallèle du stockage de l'information. L'autre partie viendra des mathématiques pures.

Quelques mathématiciens, généralement contemporains les uns des autres, Eduard Čech (1893-1960), Henri Poincaré (1854-1912) vont initier l'émergence d'une nouvelle discipline mathématique du nom de topologie. Celle-ci permet d'analyser les phénomènes de corrélation dans de nombreuses séries de chiffres. C'est en partant de ces travaux, ainsi que ceux de Leonhard Heuler, que seront fondés il y a seulement quelques années la discipline visant à analyser des modèles topologiques de données (en anglais Topological Data Analyse ; TDA) notamment par le biais de techniques très sophistiquées de dérivés d'outils mis au point au début du siècle par Čech et le mathématicien Boris Delaunay (1890-1980). Ces modèles topologiques de données sont aujourd'hui déterminants pour extraire des signaux faibles -des corrélations ou des artéfacts par exemple- de séries de nombres et ils sont très fréquemment mis en œuvre dans les opérations de calcul relevant des big data. Il n'a d'ailleurs pas été nécessaire que les technologies dites de big data soient inventées pour que l'on puisse réellement commencer à traiter de grandes séries avec ce modèle.

Les analyses épidémiologiques, sociologiques, et de toutes autres sortes requièrent depuis fort longtemps l'utilisation d'une partie de ces méthodes. Ce qui est nouveau, c'est la capacité de mettre en œuvre ces modèles à des échelles que l'on aurait difficilement cru imaginables auparavant. Le fait d'automatiser ces recherches permet de surcroît de trouver plus facilement des artéfacts dans des jeux de données que l'on aurait tout simplement pas envisager pouvoir explorer. Ainsi lorsqu'une analyse de type big data effectuée au sein des feuilles de diagnostic du Washington Hospital Center révèle que le mot « fluid » est généralement associé à un risque de réadmission élevé, c'est une information qu'il aurait été particulièrement difficile de trouver autrement et qui a évidemment une réelle importance pour les acteurs du système de soins.

Newsletter

Ma Tribune

L’actualité qui compte pour vous, chaque jour dans votre boîte mail.

La topologie est une forme de géométrie qui extrapole dans l'univers mathématique la façon dont les êtres humains perçoivent les formes. Nous, êtres humains, pouvons voir que un A est un A, même lorsque les lettres sont écrasées ou écrits dans différentes polices : c'est une perception qui nous est naturelle, mais qui ne l'est absolument pas aux systèmes informatiques classiques. En appliquant ces principes de visualisation aux chiffres, la topologie permet aux chercheurs observant un ensemble de données d'identifier des zones comportant des similitudes, même si certains détails sous-jacents peuvent en apparence être différents. Une machine peut avoir des difficultés à reconnaître des lettres, mais elle excelle à voir des signaux faibles dans des chiffres, des signaux qui nous seraient sans elle pour la plupart invisibles. Les topologistes en sont devenus adeptes de blagues qui consistent à évoquer un éléphant que l'on aurait fait apparaître dans les données issues d'une longue cohorte de chiffres sans intérêt apparent.

Mais la topologie n'est que l'une des nouvelles méthodes explorées : elle se combine généralement avec d'autres disciplines pour permettre d'obtenir des résultats concrets. Nombreux sont les mathématiciens et les « Chief Data Scientists » qui observent une renaissance des travaux en mathématique et dans le domaine des algorithmes avancés afin de permettre d'exploiter les données et d'extraire autant que possible les signaux qu'elles contiennent. La théorie des graphes, au coeur des modèles de classification de l'information mis en oeuvre entre autres par Google et Facebook, un outil complémentaire à la topologie, relève tout autant de l'informatique que des mathématiques et ouvre d'immenses perspectives. Il s'agit d'un ensemble d'algorithmes élaborés pour résoudre des problèmes issus des environnements liés à la notion de réseau (réseau social, réseau informatique, télécommunications, etc.) et dans bien d'autres domaines (par exemple génétique) tant le concept de graphe, à peu près équivalent à celui de relation binaire (à ne pas confondre donc avec graphe d'une fonction), est général.

La théorie des graphes, appliquée par exemple sur les réseaux sociaux, décrit chaque personne sous forme de nœud, tandis que les informations échangées entre ces personnes sont représentées sous forme de liens. Les modèles d'algorithmes issus de cette théorie aident à découvrir le chemin le plus court entre les nœuds à propos d'un thème éditorial, ou d'un certain type d'interaction, et donc à révéler des sous-communautés sociales, plus denses à l'égard de ce que l'on recherche.

Il s'agit en fait de mesurer la distance qui existe entre les nœuds de sorte à créer des modèles multidimensionnels permettant de voir ce qui caractérise un nœud particulier. Ces dernières années, ces modèles ont été largement transcrits dans l'univers informatique. Il est devenu désormais relativement aisé d'effectuer des recherches automatisées pour saisir quelles sont les caractéristiques importantes d'une communauté qui s'intéresse au sport de combat, où en voyage en vélo dans un pays donné par exemple. Ces notions, qui intéressent en premier chef les entreprises de l'univers du marketing, sont de plus en plus souvent mises en œuvre par des « learning machines ».

Bien entendu, il ne s'agit là que de quelques-unes des dimensions qui existent dans le monde des traitements de données. Il est intéressant à cet égard de comprendre que nombreux sont les mathématiciens qui s'aident des langages de programmation pour tester dynamiquement des démonstrations parfois fort élaborées. Selon un sondage effectué à département de mathématiques de l'école de marine de Moscou, presque 70% des élèves auraient une connaissance « poussée » d'au moins un langage de programmation.

Ces approches sont appelées à connaître un développement important dans les années à venir tant leur potentiel, pour le meilleur et pour le pire, semble important. Identifier une communauté et ses caractéristiques est en soit intéressant, mais ajouter à cela une dimension prédictive, permet évidemment de créer une interaction efficace avec cette communauté.

Gilles Babinet

OPINION. « Le cinéma français sous perfusion judiciaire : quand le droit devient le dernier rempart d’une industrie en crise »

En moins de sept ans, trois entreprises importantes de la distribution cinématographique française ont frappé à la porte du Tribunal des Activités Économiques de Paris. Mars Films en 2019, BAC Films en 2025, Wild Bunch en 2026. Trois affaires distinctes, trois trajectoires différentes, un même signal de crise.

Idées & Débats

OPINION. « Vacances durables : l’IA pour aider les touristes à passer des intentions aux actes »

De plus en plus de touristes sont intéressés par des vacances durables. Moins polluer, éviter le surtourisme, privilégier le train, soutenir les territoires, vivre des expériences plus authentiques : sur le papier, le tourisme durable séduit massivement.

Idées & Débats

OPINION. « La dette cachée de l'Allemagne » (Michel Santi)

Le 23 juin 2026, Friedrich Merz déclarait devant les industriels que l’Allemagne perdait chaque jour entre 300 et 500 emplois. Quelques jours plus tard, Volkswagen envisageait de nouvelles dizaines de milliers de suppressions de postes.

Idées & Débats

OPINION. « Le G7 : cinquante ans d’adaptation aux réalités géopolitiques »

Cette dénomination adoptée un an après la naissance de ce sommet, et l’entrée du Canada, a donc été maintenue depuis 50 ans. Mais, il ne faut nullement y voir de l’immobilisme. Comme tout organisme vivant, son format dans la réalité a connu des phases, et donc une constante évolution, intégrant les dynamiques géopolitiques du monde.

Idées & Débats

OPINION. « L’aidance en entreprise : un défi économique que nous ne pouvons plus ignorer »

À chaque épisode de canicule, des millions de Français s'inquiètent pour un parent âgé, un conjoint fragilisé ou un proche dépendant. Derrière ces appels, ces visites improvisées et cette vigilance permanente se cache une réalité qui dépasse largement le cadre familial : celle des aidants.

Idées & Débats

OPINION. « L'euro numérique, la prochaine révolution de la paie »

Le 23 juin dernier, la commission des affaires économiques du Parlement européen adoptait sa position sur l'euro numérique. La BCE prévoit de lancer un projet pilote au cours du second semestre 2027, et si les résultats sont concluants, un déploiement à grande échelle pourrait intervenir dès 2029.

Idées & Débats

OPINION. « Après la couverture, la capacité : l’angle mort de la révolution de l'IA »

Courant juin est parue l’édition 2026 de l’Ericsson Mobility Report, référence mondiale en matière d’analyse des usages et du trafic mobile. Un constat s’y impose : dans 43 réseaux mobiles sur 55 étudiés dans le monde, le trafic montant vers le réseau (données émises) progresse désormais plus vite que le trafic descendant vers le réseau (données reçues).

Idées & Débats

Général Lavigne, Jérôme Rein et Romane Roch

OPINION. « Lutte anti-drones : les nécessaires alliances entre industriels européens »

Un drone offensif coûte environ 50 000 euros. Le neutraliser en coûte vingt fois plus. Face à cette équation, la réponse de l’Europe doit être commune, rapide et pragmatique.

Idées & Débats

De l’importance des mathématiques dans les traitements de données

Ma Tribune

Sur le même sujet

OPINION. « Le cinéma français sous perfusion judiciaire : quand le droit devient le dernier rempart d’une industrie en crise »

OPINION. « Vacances durables : l’IA pour aider les touristes à passer des intentions aux actes »

OPINION. « La dette cachée de l'Allemagne » (Michel Santi)

OPINION. « Le G7 : cinquante ans d’adaptation aux réalités géopolitiques »

OPINION. « L’aidance en entreprise : un défi économique que nous ne pouvons plus ignorer »

OPINION. « L'euro numérique, la prochaine révolution de la paie »

OPINION. « Après la couverture, la capacité : l’angle mort de la révolution de l'IA »

OPINION. « Lutte anti-drones : les nécessaires alliances entre industriels européens »

Ma Tribune

Sur le même sujet

OPINION. « Le cinéma français sous perfusion judiciaire : quand le droit devient le dernier rempart d’une industrie en crise »

OPINION. « Vacances durables : l’IA pour aider les touristes à passer des intentions aux actes »

OPINION. « La dette cachée de l'Allemagne » (Michel Santi)

OPINION. « Le G7 : cinquante ans d’adaptation aux réalités géopolitiques »

OPINION. « L’aidance en entreprise : un défi économique que nous ne pouvons plus ignorer »

OPINION. « L'euro numérique, la prochaine révolution de la paie »

OPINION. « Après la couverture, la capacité : l’angle mort de la révolution de l'IA »

OPINION. « Lutte anti-drones : les nécessaires alliances entre industriels européens »