OPINION. « L'IA dévore notre patrimoine culturel : comment reprendre le contrôle? »
Primavera de Filippi

Photo d'illustration
DR
Primavera de Filippi

Photo d'illustration
DR
L'intelligence artificielle est en train de transformer notre société à une vitesse vertigineuse, mais derrière cette révolution technologique se cache une réalité troublante : nos créations, notre savoir, et notre patrimoine culturel sont aspirés par les géants de la tech sans aucune contrepartie. Cette spoliation silencieuse et pourtant si massive redessine les rapports de force économiques et culturels de notre époque, menaçant non seulement les créateurs, mais aussi l'ensemble de notre écosystème de production de connaissances.
Aujourd'hui, pour entraîner leur modèles d'IA, les entreprises collectent des quantités massives de données - livres, articles, œuvres d'art, contenus en ligne, etc. Une fois intégrées au sein de leurs modèles, ces données deviennent de facto propriété de ces entreprises, générant des profits considérables sans pour autant bénéficier les créateurs originaux. Il s'agit d'un modèle économique essentiellement asymétrique : une extraction ponctuelle pour un usage perpétuel.
Ce modèle pose plusieurs problématiques. D'abord, il prive les créateurs de toute compensation pour les bénéfices dérivés par leur travail. Ensuite, il ne leur permet pas de contrôler la façon dont leurs œuvres iront influencer les résultats de l'IA. Enfin, il ne fait pas de distinction entre les contenus de qualité et les productions médiocres, créant des incitations perverses qui dévalorisent l'expertise et la recherche de qualité.
Encore plus problématique, ce modèle est économiquement insoutenable. Au fur et à mesure que les créateurs prennent conscience de cette spoliation, ils ripostent soit par des appels en justice, soit en restreignant l'accès à leurs contenus de qualité —réduisant ainsi la qualité des données d'entraînement disponibles gratuitement sur Internet.
Pour contrer cette tendance, une nouvelle approche est en train d'émerger : le streaming de données consiste à traiter les données non plus comme un actif qui peuvent être acquis de manière définitive, mais comme un service qui doit être rémunéré à l'usage. Cette approche s'appuie sur les technologies de Génération Augmentée par méthode de Récupération (RAG en anglais), ou les Low-Rank Adaptations (LoRA) qui permettent aux modèles d'IA d'accéder à des bases de connaissances externes.
L’actualité qui compte pour vous, chaque jour dans votre boîte mail.

Concrètement, au lieu de devoir ingérer les données lors de l'entraînement, les systèmes d'IA peuvent interroger en temps réel des bases de connaissances externes. Chaque requête peut alors donner lieu à une micro-rémunération, générant un flux de revenus continu.
Cette approche s'inspire directement du modèle de streaming qui a révolutionné l'industrie du divertissement. De la même manière que Netflix a transformé la consommation de films—passant de l'achat définitif de DVD à un accès payant et continu—le streaming de données transforme l'économie de l'information. Au lieu d'acheter les données une fois pour toutes, les systèmes d'IA doivent payer à chaque fois qu'ils veulent accéder à de nouvelles bases de connaissances, générant des revenus continus pour les créateurs à chaque consultation.
Ce modèle de "data streaming" présente des avantages considérables. Tout d'abord, cela permet aux titulaires des données de conserver la propriété et le contrôle de leurs données. Ensuite, cela leur donne la possibilité de mettre à jour leurs données ou d'en retirer l'accès à tout moment. Enfin, les titulaires des données peuvent finalement être rémunérés proportionnellement à l'utilisation réelle de leurs données. Les données de plus haute qualité, de même que les contenus les plus spécialisés, retrouvent ainsi leur vraie valeur économique.
Cette vision n'est pas juste théorique. L'Agence France-Presse vient d'annoncer un partenariat avec Mistral basé sur ce principe : Le Chat a ainsi accès à des contenus journalistiques en temps réel sans devoir ré-entraîner le modèle à chaque fois. D'autres acteurs clefs dans l'industrie de l'IA—tels que Perplexity.ai, par exemple—sont en train d'explorer des modèles similaires, démontrant l'intérêt commercial de cette approche.
Au-delà du business, cette méthode représente une avancée en matière de protection des données. Puisque les données brutes ne sont jamais transférées, elles restent sous contrôle de leurs propriétaires. Ces données sont utilisées pour créer des modèles spécifiques et seules les résultats du traitement de ces données par un LLM sont communiquées aux opérateurs des systèmes d'IA qui veulent bénéficier d'une base de connaissances plus spécialisée.
Pour la France et l'Europe plus généralement, cette transformation peut avoir un impact géopolitique considérable. Face à la domination des géants technologiques américains et chinois, l'approche "data streaming" offre une voie intermédiaire : permettre l'accès à notre patrimoine culturel et informationnel tout en préservant notre souveraineté.
Cette approche pourrait également bénéficier les pays en voie de développement (qui sont souvent exploités par les modèles extractifs actuels) en leur permettant de capturer la valeur de leurs ressources culturelles et informationnelles grâce au streaming des données.
Les fondations techniques du data streaming existent déjà, et les modèles économiques associés avec cette approche ont déjà été validés par quelques acteurs. Ce qui manque, c'est une volonté collective de mettre en œuvre cette vision par le développement de standards et l'adoption de cadres réglementaires appropriés.
Bien que l'intelligence artificielle est souvent perçue comme un outil d'extraction de valeur, elle est aussi un outil permettant d'enrichir l'humanité avec des informations plus qualifiées et des services plus performants. Mais cela nécessite de reconsidérer la façon dont on traite nos données: les données ne sont pas un actif à exploiter, mais un actif à respecter et à valoriser.
_____
(*) Primavera De Filippi est directrice de recherche au CNRS à Paris, associée à la faculté du Berkman-Klein Center for Internet & Society à Harvard, et directrice de la recherche chez Alien, une entreprise française qui développe une infrastructure de streaming des données ("data streaming") pour enrichir les systèmes d'IA générative, de façon juridique et éthique. Ses recherches portent sur les défis et les opportunités juridiques de la technologie blockchain et de l'intelligence artificielle. Elle est co-auteure du livre « Blockchain and the Law », publié en 2018 par Harvard University Press, et de « Blockchain Governance », publié en 2024 par MIT Press. Membre fondateur du Global Future Council on Blockchain Technologies du Forum économique mondial, elle est la fondatrice et la coordinatrice de l'Internet Governance Forum's dynamic coalitions on Blockchain Technology de l'ONU (COALA).
Primavera de Filippi