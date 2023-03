Serait-ce le premier domino d'une série ? Ce vendredi, l'autorité italienne des données, la GPDP, a publié une sanction contre ChatGPT, le célèbre chatbot d'OpenAI. Elle reproche à l'entreprise de ne pas respecter le règlement général sur la protection des données (RGPD) dans la collecte des données qui nourrissent son algorithme, de ne pas vérifier l'âge des utilisateurs de l'outil, et d'avoir subi une violation de données.

En conséquence, l'autorité a ordonné à OpenAI de ne plus traiter les données personnelles des utilisateurs italiens. Désormais, l'entreprise à 20 jours pour se mettre en conformité, sans quoi elle s'expose à une amende pouvant aller jusqu'à 20 millions d'euros, ou 4% de son chiffre d'affaires annuel global. Inattendu, ce coup de poing sur la table pourrait avoir des conséquences pour tout l'écosystème.

Un message à l'écosystème de l'IA générative

Pour l'instant, le blocage ne concerne que l'Italie. Mais les autorités des données européennes convergent souvent sur ce genre de décision, à l'image des efforts de coordination concédés ces dernières années. Contactée par La Tribune, la Cnil (l'autorité française) précise qu'elle n'a pas reçu de plainte et qu'elle n'a pas de procédure similaire en cours. En revanche, elle s'est rapprochée de son homologue italienne afin d'échanger sur les constats qu'elle a faits. L'autorité française s'est dotée en janvier d'une division spécialisée en intelligence artificielle afin d'accompagner la nouvelle vague qui frappe le secteur, et elle prévoit de « clarifier le cadre légal des bases d'apprentissage et des IA génératives dans les prochains mois ».

De plus, si la décision de la GPDP vise nommément ChatGPT, elle ne se limite pas implicitement à l'outil d'OpenAI. « La décision de publier la sanction est un message envoyé à l'ensemble de l'écosystème. Toutes les entreprises doivent se sentir concernées », met en garde Sonia Cissé, avocate associée en droit des technologies au sein du cabinet Linklaters. « Les autorités savent qu'il est extrêmement difficile pour les entreprises d'intelligence artificielle de se conformer à 100% au RGPD », ajoute-t-elle.

Cette décision intervient alors que le texte européen de régulation de l'intelligence artificielle, l'IA Act, est toujours en discussion à Bruxelles. Mais il ne prévoit pas pour l'instant un traitement différent qui permettrait à OpenAI de se sortir de la situation, et l'entreprise américaine va sûrement devoir quitter l'Italie pour une durée indéterminée.

« La mise en conformité en 20 jours est infaisable, car le volume de documents à produire est bien trop important », estime Sonia Cissé. Faute de mise en conformité, OpenAI peut décider de se retirer du pays pour éviter l'amende. Mais un éventuel repli ne résout pas le problème de fonds : potentiellement, d'autres pays européens pourraient embrayer dans les pas de l'Italie. Et les sanctions pourraient se multiplier contre les autres acteurs de l'écosystème (Google, Meta...) s'ils persistent dans la même direction.

GPT, un aspirateur à données

Pour respecter le cadre du RGPD, OpenAI devrait définir la base légale de chaque traitement de données, c'est-à-dire justifier la collecte de chaque donnée- et préciser toutes les finalités d'usage. Problème : le principe même de ChatGPT et consorts est de collecter le maximum d'informations possibles pour améliorer la performance de l'outil, afin qu'il puisse être exploité pour pratiquement n'importe quel usage.

Par exemple, la première version de ChatGPT avait pour base le modèle de langage GPT-3, entraîné sur plus de 570 gigaoctets de textes, soit plus de 300 milliards de mots. Ce corpus colossal n'a pas fait l'objet d'un véritable tri : les développeurs ont pioché les textes sur Wikipédia, sur des livres en accès libre ou encore sur le réseau social Reddit. On y retrouve donc des informations inexactes, des opinions, et même des théories du complot. L'aspirateur à données d'OpenAI a brassé large, et a récupéré tout un ensemble de données personnelles comme des noms ou des dates de naissance par exemple, d'après des tests menés par l'autorité italienne. Sans demander au préalable le consentement des personnes concernées, comme prévu dans les textes.

Si OpenAI ne s'est pas soucié outre mesure de la qualité des informations avec lesquelles il a nourri GPT-3, c'est parce que l'entraînement avait avant tout pour but d'apprendre au modèle à comprendre la construction du langage pour en générer correctement. OpenAI le reconnaît lui-même : ChatGPT n'est pas un moteur de recherche ni un expert en culture générale. « Les LLMs [large langage models, ndlr] comme GPT-3 ne sont pas des bases de connaissances. Leur savoir n'est pas validé, et on ne peut pas les croire, même si l'outil donne la réponse avec aplomb », explique à La Tribune Stéphane Roder, président du cabinet de conseil AI Builders.

Sortie de la zone grise

Avec ce mode de fonctionnement, les créateurs d'intelligences artificielles le savaient : ils naviguaient en zone grise. Les régulateurs publient régulièrement des principes à suivre dans l'entraînement des intelligences artificielles, mais ils n'avaient pas jusqu'ici remis en cause le fonctionnement profond de l'industrie.

La décision italienne fait passer leurs pratiques en zone noire, et lève les potentiels doutes, ce qui devrait créer un nouveau débat sur la régulation. Certains arguent que si le RGPD est trop contraignant à appliquer, les entreprises européennes pourraient se retrouver une fois de plus dépassées. Mais ce discours ne convainc pas tout le monde. « A chaque arrivée d'une nouvelle technologie, on dit que les lois sont un frein, mais ce n'est pas forcément vrai. Au-delà des coûts supplémentaires, les garde-fous prévus par la loi sont logiques et souhaitables. Même les acteurs de l'IA peuvent inclure la privacy by design dans la construction de leur modèle », défend Benjamin Jacob, avocat associé en tech et protection de la donnée chez PDGB.

Plus tôt dans la semaine, plusieurs figures de la tech comme Elon Musk et Yoshua Bengio ont signé en texte pour demander à OpenAI et ses concurrents de freiner la course à l'intelligence artificielle, le temps de mettre en place des garde-fous suffisants. Désormais, la balle est dans le camp d'OpenAI, qui ne s'est pour l'instant pas prononcé sur la décision.