Les ennuis judiciaires continuent pour OpenAI. En Europe, les procédures concernant son utilisation des données personnelles s'enchaînent. Dernière en date : le dépôt de plainte de l'ONG autrichienne Noyb, fondée par l'avocat et activiste Max Schrems. L'organisation reproche à l'entreprise de ne pas être capable de corriger ni d'effacer correctement une information fausse concernant une personne, et ne pas être transparente quant à l'origine des informations que son chatbot donne.
Noyb (none of your business, « pas tes affaires ») a fait le test en demandant au chatbot la date de naissance d'une personnalité publique (anonymisée dans le communiqué de l'organisation). A plusieurs reprises le chatbot a donné une date erronée. La date précise est introuvable sur le web, donc le modèle de langage derrière ChatGPT, qui génère du texte de manière probabiliste, a "inventé" une date, sans reconnaître qu'il ne connaissait pas cette information. C'est ce qu'on appelle dans le jargon des intelligences artificielles une « hallucination ».
Dans le cadre d'un travail de recherche, une information fausse peut être facilement vérifiée et corrigée, concède Noyb, mais lorsqu'elle concerne un individu en particulier ce n'est pas "acceptable". En Europe, le RGPD assure aux citoyens le droit de demander une correction voire la suppression de données les concernant en cas d'erreur. Par ailleurs, l'entreprise doit être capable de dire à un individu quelles données elle possède et quelles en sont les sources.
OpenAI diffuse de fausses informations, et affirme qu'elle n'est pas responsable
Chose qu'OpenAI semble incapable de faire, pointe l'ONG qui défend la vie privée des internautes. L'organisation affirme que la firme de Sam Altman a refusé de corriger la date de naissance erronée, déclarant que c'était impossible techniquement. OpenAI dit avoir des filtres permettant de bloquer l'affichage des données personnelles des personnes qui en font la demande. Toutefois, l'entreprise précise qu'il n'est pas possible de bloquer la date de naissance de la personne concernée sans affecter les autres informations que le chatbot affiche à son sujet. « ChatGPT semble considérer qu'il peut simplement diffuser de fausses informations et qu'il n'en est pas responsable », résume l'organisation dans sa plainte.
« Si un système ne peut fournir des résultats corrects et transparents, il ne saurait être utilisé pour générer des données sur des individus. La technologie doit se plier à la loi, et non l'inverse », insiste l'avocate Maartje de Graaf, citée dans le communiqué.
L'organisation demande donc à l'autorité autrichienne de protection des données (DSB) d'enquêter sur le traitement des données d'OpenAI. Elle lui demande également d'ordonner à l'entreprise de se conformer à la demande d'accès du plaignant et de mettre son traitement en conformité avec le RGPD. Enfin, Noyb demande à l'autorité d'infliger une amende à l'entreprise.
Noyb, l'association acharnée qui fait plier les Big Tech
Cette plainte a peut-être de quoi inquiéter OpenAI plus que les autres. Car l'association est habituée à ce genre de procédure contre les géants de la tech. En 2023, Meta (propriétaire de Facebook et Instagram) s'est vu infliger une amende record de 1,2 milliard d'euros et a reçu l'ordre de cesser le transfert de données personnelles de l'UE vers les États-Unis, suite à une action judiciaire longue de dix ans de Noyb.
L'ONG vise ChatGPT, qui est le modèle de langage à ce jour le plus utilisé. Mais ce problème touche en réalité l'ensemble du secteur. Il est même inhérent à la manière dont sont développés les grands modèles de langage. Ces derniers déterminent le mot suivant en se basant sur des probabilités. Ils peuvent donc répondre de multiples manières à une même question. Parfois la réponse est correcte, parfois non. Il est difficile de savoir à quel point la marge d'erreur des chatbots est importante. Selon un rapport de la startup Vectara repris par le New York Times, la technologie d'OpenAI se trompe 3 % du temps lorsqu'on lui demande de résumer des articles de presse. Ce pourcentage est sans doute plus important lorsque le chatbot ne s'appuie pas sur un document donné, estime la jeune pousse. OpenAI reste l'entreprise dont le taux d'erreur serait le plus faible. Les modèles de Meta se situeraient autour de 5 % d'erreur, Claude d'Anthropic autour de 8 %. Et 27 % pour Palm de Google.
L'insoluble problème des hallucinations des IA
Ce problème d'hallucination est bien entendu pris en considération par les éditeurs, qui tentent de les réduire en mettant en place des garde-fous. Mais certains chercheurs estiment qu'il est impossible de les éradiquer totalement. Et qu'il faudrait donc se faire à l'idée que les LLM ne sont pas faits pour répondre à n'importe quelle question.
ChatGPT et son traitement des données des internautes, a déjà inquiété d'autres autorités, sans qu'aucune action n'ait pour le moment réellement porté ses fruits. En mars 2023, la Cnil italienne a suspendu ChatGPT pendant un mois, avant de l'autoriser de nouveau suite à des modifications mises en place par l'entreprise. Puis en janvier 2024, la Cnil italienne est revenue à la charge, pointant de nouvelles irrégularités quant au traitement des données, laissant 30 jours à l'entreprise pour faire des modifications. A ce jour, aucune décision n'a été prise.
En France, des plaintes ont également été déposées auprès de la Cnil. Contactée à ce sujet, le gendarme du numérique précise ne pas avoir le droit de s'exprimer sur des dossiers en cours d'instruction.
Bruxelles est aussi sur le coup. En 2023, l'EDPB, le Comité européen de la protection des données, a créé un groupe de travail spécifique sur ChatGPT afin de faciliter la coopération entre les autorités de protection des données. Sur le calendrier, l'EDPB reste vague. "Les travaux de la taskforce sont actuellement en cours", précise un porte-parole. Par ailleurs, l'EDPB prévoit de publier des "lignes directrices" à l'intention des entreprises sur l'utilisation de l'IA en conformité avec le RGPD;
OpenAI dépend désormais du gendarme irlandais du numérique OpenAI a ouvert récemment un bureau en Irlande, qui est devenu en février 2024 responsable du traitement des données des Européens. Auparavant, elle ne possédait pas de siège dans l'UE. Donc l'entreprise pouvait être attaquée séparément par les régulateurs de chaque Etat membre en cas d'infractions. Mais lorsqu'une entreprise étrangère a un siège dans l'UE, elle dépend du mécanisme de "guichet unique". C'est-à-dire que le régulateur du pays est en charge de coordonner les procédures contre l'entreprise. Désormais c'est donc l'équivalent de la Cnil irlandaise - la Data Protection Commission (DPC) - qui détient ce rôle pour OpenAI. C'est le schéma classique qu'ont choisi les autres grandes entreprises de la tech pour gérer les affaires de droits européens. L'Irlande accueille en effet les sièges d'Alphabet (Google, YouTube), Meta (Facebook, Instagram, WhatsApp) et Microsoft. Une situation qui ne satisfait pas toujours les défenseurs de la vie privée des internautes, qui accusent régulièrement le gendarme irlandais d'être trop timoré envers les Big Tech.
Sujets les + commentés