Face au pillage des sites web par les géants de l'IA, la fronde s'organise
François Manens
Ce contenu est réservé aux abonnés La Tribune

Les sites tentent de se protéger contre les robots scrapper de OpenAI et Anthropic.
DR
François Manens
Ce contenu est réservé aux abonnés La Tribune

Les sites tentent de se protéger contre les robots scrapper de OpenAI et Anthropic.
DR
La gronde contre les géants de l'intelligence artificielle s'intensifie. En cause : OpenAI, Anthropic, Google et bien d'autres aspirent en continu les textes des millions de pages web, sans trop se soucier de l'avis de leurs propriétaires. La raison ? Les grands modèles d'IA qu'ils développent ont besoin de volumes de données toujours plus grands afin de produire des résultats toujours plus performants. Des articles de presse, aux recettes de cuisine, en passant par les sous-titres des vidéos YouTube, tout y passe : les ingénieurs font ingurgiter aux IA du contenu trouvé aux quatre coins d'Internet.
Mais les propriétaires de sites web sont de plus en plus nombreux à tenter d'arrêter ce pillage, d'autant plus que certains parviennent à tirer des millions d'euros dans le cadre d'accords officiels, à l'image de ceux du Monde avec OpenAI ou de Google avec le réseau social Reddit. Empêcher l'aspiration systématique des données passe par le blocage des robots scraper qu'utilisent les géants de l'IA. Ces petits programmes informatiques automatisés parcourent le web et téléchargent tout ce qu'ils trouvent. Mais les arrêter n'est pas si simple...
À lire également
Les chercheurs de la Data Provenance Initiative, un collectif de spécialistes de l'IA, ont récemment publié une étude dans laquelle ils mesurent le nombre de sites qui bloquent expressément les scrapers des entreprises d'IA. Leur constat ? Une augmentation rapide du nombre de restrictions, affichées sur plus de 5% des 14.000 sites web qu'ils ont analysés, et même sur 28% des sources jugées comme « critiques » et « mises à jour régulièrement ».
François Manens