De l’importance des mathématiques dans les traitements de données

 |   |  1381  mots
(Crédits : Reuters)
On a souvent tendance à oublier combien le déluge technologique auquel nous assistons au travers de la donnée ne serait pas grand chose  sans les mathématiques. De surcroît, une très vaste majorité - peut être 95 à 98% - des données issues de l'internet sont « bruyantes », c'est à dire qu'elles sont non structurées et dynamiques, plutôt que statiques et convenablement rangées. Sans même évoquer le fait qu'elles peuvent être endommagées ou incomplètes. Par Gilles Babinet

Typiquement, les données issues des réseaux sociaux, de Facebook, Twitter ou Instagram sont principalement textuelles et donc nécessitent d'importants travaux pour les exploiter.  Ceux qui ont une formation en mathématique, ou mieux encore en statistiques ont l'habitude de penser des données comme étant composé de vecteurs - une chaîne de chiffres et de coordonnées. Mais en ce qui concerne les données des réseaux sociaux ou de la vaste majorité du web, rien de tel. Pour pouvoir effectuer des traitements statistiques à partir de ces informations, il faut repenser totalement les approches technologiques usuelles. Cela signifie qu'il aura fallu créer de nouveaux outils mathématiques à partir des ensembles de données.

Cela soulève donc deux défis : il y a d'une part beaucoup plus de données et d'autre part, celles-ci ne sont pas rangées de la façon dont il le faudrait si on veut utiliser les outils traditionnels pour les traiter. Nombreux sont ceux qui soulignent qu'on ne peut pas se figurer la matière première de la big data comme une gigantesque feuille Excel, de la taille d'un parking d'hypermarché, sur laquelle se trouverait plutôt des données bien rangées. Il faut plutôt se figurer la big data comme un torrent de montagne, dont chaque goutte est un chiffre ou encore comme une photo ou une suite de photos. En apparence, tout cela paraît extrêmement désordonné et sans vraiment de sens, pourtant il est possible d'en extraire une quantité d'information impressionnante, pour peu que l'on accepte de changer de méthode.

Les solutions -car il ne s'agit pas d'une seule solution- viendront progressivement en associant élégamment plusieurs méthodes, parfois issues de disciplines très éloignées les unes des autres. On a vu qu'une partie de la réponse au traitement des données non-structurées s'est trouvé dans le traitement parallèle du stockage de l'information. L'autre partie viendra des mathématiques pures.

Quelques mathématiciens,  généralement contemporains les uns des autres, Eduard Čech (1893-1960), Henri Poincaré (1854-1912)  vont initier l'émergence d'une nouvelle discipline mathématique du nom de topologie. Celle-ci permet d'analyser les phénomènes de corrélation dans de nombreuses séries de chiffres. C'est en partant de ces travaux, ainsi que ceux de Leonhard Heuler, que seront fondés il y a seulement quelques années la discipline visant à analyser des modèles topologiques de données (en anglais Topological Data Analyse ; TDA) notamment par le biais de techniques très sophistiquées de dérivés d'outils mis au point au début du siècle par Čech et le mathématicien Boris Delaunay (1890-1980). Ces modèles topologiques de données sont aujourd'hui déterminants pour extraire des signaux faibles -des corrélations ou des artéfacts par exemple- de séries de nombres et ils sont très fréquemment mis en œuvre dans les opérations de calcul relevant des big data. Il n'a d'ailleurs pas été nécessaire que les technologies dites de big data soient inventées pour que l'on puisse réellement commencer à traiter de grandes séries avec ce modèle.

Les analyses épidémiologiques, sociologiques, et de toutes autres sortes requièrent depuis fort longtemps l'utilisation d'une partie de ces méthodes. Ce qui est nouveau, c'est la capacité de mettre en œuvre ces modèles à des échelles que l'on aurait difficilement cru imaginables auparavant. Le fait d'automatiser ces recherches permet de surcroît de trouver plus facilement des artéfacts dans des jeux de données que l'on aurait tout simplement pas envisager pouvoir explorer. Ainsi lorsqu'une analyse de type big data effectuée au sein des feuilles de diagnostic du Washington Hospital Center révèle que le mot « fluid » est généralement associé à un risque de réadmission élevé, c'est une information qu'il aurait été particulièrement difficile de trouver autrement et qui a évidemment une réelle importance pour les acteurs du système de soins.

La topologie est une forme de géométrie qui extrapole dans l'univers mathématique la façon dont les êtres humains perçoivent  les formes. Nous, êtres humains, pouvons voir que un A est un A, même lorsque les lettres sont écrasées ou écrits dans différentes polices : c'est une perception qui nous est naturelle, mais qui ne l'est absolument pas aux systèmes informatiques classiques. En appliquant ces principes de visualisation aux chiffres, la topologie permet aux chercheurs observant un ensemble de données d'identifier des zones comportant des similitudes, même si certains détails sous-jacents peuvent en apparence être différents. Une machine peut avoir des difficultés à reconnaître des lettres, mais elle excelle à voir des signaux faibles dans des chiffres, des signaux qui nous seraient sans elle pour la plupart invisibles. Les topologistes en sont devenus adeptes de blagues qui consistent à évoquer un éléphant que l'on aurait fait apparaître dans les données issues d'une longue cohorte de chiffres sans intérêt apparent.

Mais la topologie n'est que l'une des nouvelles méthodes explorées : elle se combine généralement avec d'autres disciplines pour permettre d'obtenir des résultats concrets. Nombreux sont les mathématiciens et les « Chief Data Scientists » qui observent une renaissance des travaux en mathématique et dans le domaine des algorithmes avancés afin de permettre d'exploiter les données et d'extraire autant que possible les signaux qu'elles contiennent. La théorie des graphes, au coeur des modèles de classification de l'information mis en oeuvre entre autres par Google et Facebook, un outil complémentaire à la topologie, relève tout autant de l'informatique que des mathématiques et ouvre d'immenses perspectives. Il s'agit d'un ensemble d'algorithmes élaborés pour résoudre des problèmes issus des environnements liés à la notion de réseau (réseau socialréseau informatiquetélécommunications, etc.) et dans bien d'autres domaines (par exemple génétique) tant le concept de graphe, à peu près équivalent à celui de relation binaire (à ne pas confondre donc avec graphe d'une fonction), est général.

La théorie des graphes, appliquée par exemple sur les réseaux sociaux, décrit chaque personne sous forme de nœud, tandis que les informations échangées entre ces personnes sont représentées sous forme de liens. Les modèles d'algorithmes issus de cette théorie aident à découvrir le chemin le plus court entre les nœuds à propos d'un thème éditorial, ou d'un certain type d'interaction, et donc à révéler des sous-communautés sociales, plus denses à l'égard de ce que l'on recherche.

Il s'agit en fait de mesurer la distance qui existe entre les nœuds de sorte à créer des modèles multidimensionnels permettant de voir ce qui caractérise un nœud particulier. Ces dernières années, ces modèles ont été largement transcrits dans l'univers informatique.  Il est devenu désormais relativement aisé d'effectuer des recherches automatisées pour saisir quelles sont les caractéristiques importantes d'une communauté qui s'intéresse au sport de combat, où en voyage en vélo dans un pays donné par exemple. Ces notions, qui intéressent en premier chef les entreprises de l'univers du marketing, sont de plus en plus souvent mises en œuvre par des « learning machines ».

Bien entendu, il ne s'agit là que de quelques-unes des dimensions qui existent dans le monde des traitements de données. Il est intéressant à cet égard de comprendre que nombreux sont les mathématiciens qui s'aident des langages de programmation pour tester dynamiquement des démonstrations parfois fort élaborées. Selon un sondage effectué à département de mathématiques de l'école de marine de Moscou, presque 70% des élèves auraient une connaissance « poussée » d'au moins un langage de programmation.

Ces approches sont appelées à connaître un développement important dans les années à venir tant leur potentiel, pour le meilleur et pour le pire, semble important. Identifier une communauté et ses caractéristiques est en soit intéressant, mais ajouter à cela une dimension prédictive, permet évidemment de créer une interaction efficace avec cette communauté.

Réagir

Votre email ne sera pas affiché publiquement
Tous les champs sont obligatoires

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

 a le à :