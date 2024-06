Fin mai, Snowflake, spécialiste américain de la gestion des données dans le cloud, rapportait des résultats trimestriels mirobolants. Avec un chiffre d'affaires de 789,6 millions de dollars au premier trimestre 2024, la société californienne fondée par deux Français enregistre un taux de croissance de 34 % d'une année sur l'autre. Sa rivale Databricks, également originaire de la Silicon Valley, n'est pas cotée en bourse, mais sa valorisation est passée de 38 milliards de dollars avant l'émergence de ChatGPT à 43 milliards aujourd'hui. Teradata, une autre société rivale, a également rapporté de bons résultats trimestriels.

Tous ces spécialistes de la gestion des masses de données de l'informatique en nuage surfent sur la vague de l'intelligence artificielle (IA), en particulier de l'IA générative. Pour tirer les bénéfices de celle-ci, les entreprises doivent gérer efficacement leurs données pour les mettre au service des algorithmes, et se tournent donc logiquement vers ces spécialistes historiques du big data.

Briser les « silos » de données

Fondées respectivement en 2012 et 2013, les entreprises comme Snowflake et Databricks sont nées avec l'essor de l'informatique en nuage. En effet, lorsque les entreprises migrent leurs données depuis leurs propres serveurs vers le cloud, ces données peuvent se retrouver éparpillées de tous les côtés. Il arrive ainsi que des morceaux de données stockés quelque part n'interagissent pas avec le reste des systèmes de l'entreprise.

Des « silos », pour reprendre la terminologie de Snowflake, qui constituent une perte pour la société, puisque, comme le dit l'adage, les données sont le pétrole du XXIe siècle. Snowflake est ainsi née avec l'ambition de briser ces « silos de données » en éliminant les difficultés pour trouver et trier celles-ci, grâce à une infrastructure basée sur le cloud. Les données peuvent ainsi circuler librement, offrant à l'entreprise une vision exhaustive et holistique sur son business.

« Notre ambition est de faire du Data Cloud le meilleur endroit pour exécuter, distribuer et monétiser une nouvelle génération d'applications basées sur les données », confiait ainsi Benoît Dageville, cofondateur et président aux produits de Snowflake, lors d'un événement organisé à Paris en septembre 2022 par l'entreprise.

Ces entreprises ont rapidement flairé la poule aux œufs d'or de l'IA

La capacité des deux entreprises à gérer les masses de données les a rapidement conduites à se positionner comme des partenaires privilégiés pour les entreprises souhaitant utiliser l'intelligence artificielle, alors que cette technologie montait en puissance et en popularité durant les années 2010. L'un des mantras de Snowflake est ainsi que, « pour avoir une stratégie autour de l'IA, il faut d'abord avoir une stratégie autour des données. »

« Nous voyons ce financement et notre croissance rapide comme une validation supplémentaire de notre vision d'une plateforme de traitement des données, capable de répondre aux différents besoins, dont l'intelligence artificielle », déclarait pour sa part Ali Ghodsi, patron de Databricks, lors de l'officialisation d'une levée de fonds de l'entreprise en 2021.

La jeune pousse a ainsi très tôt cherché à se positionner sur l'IA générative, à travers notamment la sortie de Dolly, un grand modèle de langage conçu pour permettre à ses clients de construire facilement des applications s'appuyant sur la technologie qui a permis ChatGPT. Databricks a également racheté MosaicML, une startup de l'IA générative.

Snowflake n'est pas non plus resté les bras croisés. La société a tissé un partenariat avec Nvidia, maître incontesté des cartes graphiques (GPUs) nécessaires pour entraîner les modèles d'IA générative. Elle a également sorti Cortex AI, son propre grand modèle linguistique.

Ce que gagnent les entreprises à recourir à ces services pour leur stratégie IA

Aux entreprises qui souhaitent utiliser l'IA (et elles sont de plus en plus nombreuses), ces spécialistes du big data offrent de multiples avantages. D'abord, avant d'entraîner des modèles d'IA sur leurs données, les professionnels doivent s'assurer que celles-ci soient trouvables au sein de leur système d'information (d'où l'importance de briser lesdits silos).

Mais également qu'elles soient de qualité, et puissent être utilisées sans enfreindre les régulations protégeant la vie privée des utilisateurs (comme le RGPD), etc. C'est ce que l'on nomme l'observabilité. « L'IA attire l'attention sur la qualité des données. Cela a ouvert de nombreuses discussions avec nos clients, et nous a conduit à mettre en place de nouvelles applications pour mieux observer les données hébergées dans Snowflake », confie Jennifer Belissent, en charge de la stratégie des données au sein de l'entreprise.

L'aspect conformité avec la législation en vigueur est bien sûr particulièrement critique pour les entreprises qui cherchent à utiliser l'IA. Mais l'aspect éthique, afin d'éviter toute mauvaise publicité, est tout aussi important. « Outre les risques légaux, il faut aussi prendre en compte les risques éthiques : est-ce que les données sur lesquelles j'entraîne mon algorithme vont conduire ce dernier à adopter un biais raciste ou sexiste ? C'est un sujet majeur pour les entreprises que nous accompagnons dans leur adoption de l'IA », affirmait pour sa part Nicolas Maillard, responsable Europe du Sud chez Databricks, lors d'un récent débat organisé par le Club de la Presse Informatique B2B (CPI-B2B).

Les deux entreprises profitent également de l'émergence de l'informatique en périphérie, ou edge computing, qui rapproche les ressources informatiques et le traitement des données du lieu où celles-ci sont générées, plutôt que de les traiter de manière centralisée. Une technique qui limite les mouvements de données, et donc la latence, les dépenses énergétiques, les risques de pertes et de fuite. « La plupart de nos clients cherchent aujourd'hui à construire des applications autour de l'IA et nous disent apprécier la possibilité d'utiliser Snowflake pour apporter leurs modèles d'IA directement là où se trouvent leurs données », note Jennifer Belissent.

« Historiquement, on déplaçait les données vers les ordinateurs, car il y avait peu de données à déplacer. Mais aujourd'hui, à l'heure du traitement des masses de données, celles-ci possèdent une gravité importante, d'autant que les régulations encadrant leurs déplacements se multiplient. Il est donc plus simple pour nous de rapprocher nos machines de calcul des données stockées dans Snowflake », expliquait de son côté Jensen Huang, le patron de Nvidia, lors de la conférence annuelle de Snowflake à Las Vegas l'an passé.