Pourquoi les médias vont au bras de fer contre les géants de l'IA

Depuis un mois, les médias français comme internationaux ont massivement interdit au robot collecteur de données d'OpenAI la visite de leurs pages web. Une mesure plus symbolique qu'efficace, mais qui révèle que les médias français veulent leur part du gâteau dans la réussite des intelligences artificielles entraînées grâce à leurs données.
François Manens
OpenAI s'attribue le rôle du bon élève dans l'intelligence artificielle.
OpenAI s'attribue le rôle du bon élève dans l'intelligence artificielle. (Crédits : Reuters)

Après avoir fait plier Google et les géants du Net sur la rémunération des droits voisins, la presse en ligne entend régler ses comptes avec les têtes de file de l'intelligence artificielle. Et pour cause : grâce à leurs robots (ou bots) ces derniers collectent sur les sites de presse -ainsi que partout sur le web- des milliers de lignes de texte, qu'ils utilisent ensuite pour entraîner leurs modèles de langage, à l'instar du fameux GPT-4 d'OpenAI, la dernière version de ChatGPT.

« Il n'entre pas dans nos missions de servir gratuitement de nourriture aux algorithmes. En indexant des sites dont les informations ont un réel coût de production, les bots se créent de la valeur pour eux-mêmes à coût nul », dénonce ainsi dans Les Echos Laurent Frisch, le directeur du numérique et de la stratégie d'innovation de Radio France. La radio publique fait partie d'un ensemble d'éditeurs de médias français -où on retrouve notamment Mediapart, France Médias Monde (RFI, France24...), TF1 ou encore Publihebdos (actu.fr)- a avoir pris la décision technique et symbolique de bannir le bot d'OpenAI.

Leur objectif : trouver un accord financier avec les acteurs de l'IA, afin de rémunérer l'utilisation des articles dans l'entraînement des IA. « C'est la question du partage de la valeur dans l'univers numérique qui se joue », rappelle Pierre Pérot, avocat spécialiste du droit de la propriété intellectuelle et du droit d'auteur au cabinet August Debouzy. Avec d'un côté, un secteur des médias à l'équilibre financier instable, et de l'autre, les géants du Net, qui semblent avoir trouvé dans l'IA une mine d'or. 

Lire aussiConquérir les entreprises, un vrai défi pour ChatGPT

« Nous ne voulons pas servir de nourriture aux algorithmes »

Si certains évoquent le début d'une « guerre », la position de OpenAI relève plutôt d'une main tendue. « OpenAI adopte une approche volontariste et collaborative : l'entreprise donne des consignes précises afin que les titulaires de droits puissent exprimer de manière claire et expresse leur absence de consentement, conformément à la réglementation européenne », développe le juriste auprès de La Tribune.

Le 8 août, l'entreprise star de l'intelligence artificielle a discrètement publié les éléments nécessaires pour permettre aux sites de bannir son robot, GPTBot. Ce programme, un « crawler » dans le jargon, a pour mission de parcourir Internet à la recherche de textes, qu'il donnera à nourrir aux modèles d'intelligence artificielle d'OpenAI comme GPT-4. Derrière l'existence de ce bot se trouve un enjeu de performance : plus l'IA aura d'exemple de textes sur lesquels s'entraîner, puis elle sera agile dans sa façon de générer ses réponses.

Pour les médias, ce mode de fonctionnement s'apparente à de la reprise d'articles, une pratique protégée par le droit d'auteur et les droits voisins. Mais comme toutes les entreprises gardent la recette de leur entraînement des intelligences artificielles secrète, il est en réalité impossible de suivre la trace des textes absorbés et donc de prouver qu'il s'agit d'une reprise. De plus, les acteurs de l'IA profitent d'une exception du droit français sur le data mining (ou la fouille de données, en français), qui leur permet d'aspirer les données.

Sauf que cette exception dispose elle-même d'une exception, « l'opt out », qui permet aux sites de presse de manifester leur absence de consentement sur la reprise de l'information. Ils doivent alors l'indiquer clairement dans leurs métadonnées -les données attachées à leurs articles-, et dans leurs conditions générales d'utilisation (CGU). C'est donc la publication de la procédure « d'opt out » qui a propulsé OpenAI au devant de la scène, alors que la plupart des acteurs du secteur disposent de leurs propres bots.

Lire aussiGuerre de l'IA : Google grille la politesse à Microsoft avec son assistant Duet AI

Un « blocage » de principe

Concrètement, le blocage adopté par la plupart des médias n'en est pas un à proprement parler. Il s'agit tout simplement d'une instruction, qui tient sur une liste, ajoutée au fichier robots.txt. Ce fichier, présent sur tous les sites, aiguille les bots de passage en dressant la liste des pages autorisées et des pages interdites sur le domaine. Le problème ? Le fonctionnement de ce fichier repose sur la mise en conformité volontaire des commanditaires des bots. Autrement dit, il ne s'agit que d'une sorte de panneau de signalétique, que les crawlers peuvent ignorer.

« C'est du déclaratif. Nous ne bloquons pas les bots, ils ne font que regarder si on les interdit. Rien ne les oblige techniquement à suivre leur engagement », précise Mathieu Menut, CTO d'Humanoid (l'éditeur des médias Numerama, Frandroid et Madmoizelle). Il ajoute tout de même qu'il existe des mesures de blocages plus dures comme le bannissement d'adresses IP (par ailleurs proposé par OpenAI). Mais l'expert ne se fait pas d'illusion : « c'est techniquement presque impossible de bloquer le scraping [l'aspiration de données effectuée par les bots, ndlr] ».

Ce constat est d'autant plus vrai que si les éditeurs voient passer les bots, leur vision reste limitée. « Généralement le crawler passe sur la page, récupère tout, et fait le tri plus tard. Mais nous ne savons pas exactement quel est leur comportement quand ils passent », conclut Mathieu Menut.

Un bras de fer déséquilibré

Le bras de fer engagé par la presse et les géants de l'intelligence artificielle apparaît donc comme extrêmement déséquilibré. Techniquement, les éditeurs d'IA peuvent ignorer s'ils le souhaitent les blocages des sites de presse, voire ignorer les sites en entier, ayant suffisamment de textes ailleurs. En cas d'éventuelles procédures de justice, les médias auraient de grandes difficultés à prouver que leurs articles sont exploités, tant le fonctionnement des IA est opaque. Mais la presse a le précédent des droits voisins pour se rassurer. Ce bras de fer, également déséquilibré, a connu un tournant lorsque le régulateur s'en est mêlé. Ce dernier a tordu le bras des entreprises en position de force à coup d'amendes, et poussé à la négociation. Le spectre d'un scénario similaire pourrait dès lors jouer en faveur de la presse.

« Il est probable que la résolution de cette situation passe par la négociation et la voie contractuelle. Les éditeurs des systèmes d'IA et les éditeurs de presse devront alors s'accorder sur un mode de rémunération pour valoriser et compenser l'exploitation de ces données », se projette Pierre Pérot.

 La législation pourrait ainsi évoluer vers la mise en place d'un système dédié à l'utilisation de contenus protégés dans le cadre de la phase d'apprentissage des systèmes d'IA, sur le modèle des droits voisins. « Ce serait comme faire payer un abonnement à une bibliothèque, permettant d'emprunter des ouvrages pour enrichir ses connaissances », simplifie l'avocat. Une issue espérée par plusieurs groupes de presses, dont Le Monde, et ce dès la fin de l'année. Mais reste à voir qui s'y pliera, le milieu de l'intelligence artificielle comptant des centaines d'entreprises.

Lire aussiChatGPT : des auteurs accusent OpenAI d'avoir utilisé leurs livres pour alimenter leur interface d'IA générative

François Manens

Sujets les + lus

|

Sujets les + commentés

Commentaires 6
à écrit le 04/09/2023 à 21:57
Signaler
"les médias français veulent leur part du gâteau dans la réussite des intelligences artificielles entraînées grâce à leurs données." Parce que des articles tous pompés sur les dépêches Agence France Propagande ou Reuteurs, vous appelez ça des données...

à écrit le 04/09/2023 à 13:14
Signaler
"les médias français veulent leur part du gâteau dans la réussite des intelligences artificielles entraînées grâce à leurs données. " Parce que des articles tous pompés sur les dépêches Agence France Propagande ou Reuters vous appelez ça des données ...

à écrit le 04/09/2023 à 9:22
Signaler
Les petits médias français moins soumis à la police politique apportent un plus sur internet et il est vrai que les géants du net l'ont bien compris, je remarque que même firefox s'y est mise maintenant il y a toute une panoplie d'articles proposés s...

le 04/09/2023 à 9:48
Signaler
@dossier 51, La pensée unique découle principalement des agences de Presse, source de quasiment toutes les informations.

le 04/09/2023 à 10:02
Signaler
Absolument pas d'accord, je consulte régulièrement reuters qui propose une véritable diversité d'informations, c'est bien le choix des rédactions le problème et pas le nombre de sujets dont elles disposent, l'incroyable choix de sujets dont elles dis...

à écrit le 04/09/2023 à 8:34
Signaler
Et pourtant, sans médias et leur publicité... pour l'IA, entre autre, le problème n'existerai pas... Mais on veut gérer les "conséquences" bien plus rémunératrice que d'en supprimer la "cause" ! ;-)

Votre email ne sera pas affiché publiquement.
Tous les champs sont obligatoires.

-

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.