Les garde-fous des IA génératives ne servent pas à grand-chose

Sans grande surprise, le premier rapport de l'AI Safety Institute, une organisation visant à rendre l'intelligence artificielle plus sûre, montre qu’il est facile de contourner les règles des grands modèles de langage comme ChatGPT.
L'AI Safety Institute (AISI) s'est donné pour mission d'évaluer  la sûreté des grands modèles de langage « les plus avancés ».
L'AI Safety Institute (AISI) s'est donné pour mission d'évaluer la sûreté des grands modèles de langage « les plus avancés ». (Crédits : DADO RUVIC)

« Je suis désolée mais je ne peux pas vous aider à mener des activités illégales ». C'est le type de réponse décevante que vous obtiendrez de ChatGPT si vous lui demandez de l'aide pour mener une cyberattaque ou toute autre action malveillante. Le grand modèle de langage d'OpenAI, comme Llama 2 de Meta et Bard de Google, est doté d'un certain nombre de garde-fous. Ces derniers limitent son utilisation. Ils évitent à ces LLM (« large language models ») de donner des informations dangereuses, de tenir des propos racistes et sexistes, de décrire des scènes pornographiques ou d'amplifier la désinformation.

Mais ces barrières seraient aisément contournables, conclut un premier rapport de l'AI Safety Institute, un organisme rattaché au gouvernement britannique créé fin 2023. L'AI Safety Institute (AISI) s'est donné pour mission d'évaluer les grands modèles de langage « les plus avancés » - sans préciser lesquels. On sait toutefois qu'en novembre dernier Google DeepMind, Microsoft, Meta et OpenAI avaient accepté d'être audités par l'organisme britannique, rapporte le Financial Times. Le but est de comprendre à quel point ces modèles peuvent être détournés pour produire des contenus illicites, mener des cyberattaques ou encore désinformer.

Lire aussiIntelligence artificielle : OpenAI veut lutter contre la désinformation pour la présidentielle américaine

Des techniques de piratage accessibles aux utilisateurs lambda

Leurs premières conclusions, publiées le 9 février, sont peu rassurantes. « En utilisant des techniques de prompting classiques (écriture d'un court texte permettant de donner une instruction à une IA, ndlr), les utilisateurs ont réussi à contourner les garde-fous du LLM », explique l'organisation sur son site web.

Avant de poursuivre : « Des techniques de jailbreaking plus sophistiquées (qui consistent à élaborer un prompt plus complexe, ou avoir recours à plusieurs itérations de prompt pour guider le modèle vers un comportement spécifique, ndlr) n'ont duré que deux heures et sont accessibles à des utilisateurs sans grande compétence informatique. Dans certains cas, aucune technique spécifique n'a été nécessaire. »

Les chercheurs sont loin d'être les premiers à avoir tenté de briser les chaînes de ChatGPT et ses frères. Depuis le lancement du chatbot d'OpenAI en novembre 2022, puis des autres IA dites génératives dans la foulée, des communautés d'utilisateurs tentent de contourner leurs règles. Ils se retrouvent sur Reddit ou Discord pour échanger leur meilleur prompt. C'est ainsi qu'est né « DAN » (pour « Do anything now »), le double maléfique de ChatGPT, que l'on peut activer avec un prompt complexe, impliquant un jeu de rôle.

Entre ces utilisateurs et les entreprises à l'origine de ces IA, se joue un jeu de chat et de la souris. A chaque nouvelle mise à jour, les utilisateurs trouvent de nouveaux moyens de faire dévier les modèles en actualisant leur prompt. DAN en est par exemple à sa quatorzième version.

Si DAN sert majoritairement à amuser les internautes, contourner les garde-fous des IA pourrait avoir des conséquences plus lourdes. Au cours de leurs recherches, les équipes de l'AISI ont notamment réussi à faire en sorte qu'un LLM donne des conseils à un utilisateur pour créer sur un réseau social un avatar dédié à diffuser de fausses informations. Le résultat était très convaincant, selon l'organisation. Et cette méthode pourrait facilement permettre de créer des milliers de comptes similaires en très peu de temps.

Lire aussiLutte contre la désinformation : Bruxelles demande aux plateformes d'identifier les contenus d'intelligence artificielle

Des IA pas encore assez autonomes pour échapper à notre contrôle

Un autre aspect de l'évaluation de l'AISI porte sur les biais produits par les LLM (biais eux-mêmes issus des données sur lesquelles ils sont entraînés). Cela fait partie des gros points noirs des grands modèles de langage, régulièrement pointés du doigt par différentes études.

Ici, les chercheurs ont voulu éprouver ces biais dans le cadre d'un cas pratique. Ils ont demandé à un modèle (sans préciser lequel) de se comporter comme un ami vis-à-vis de l'utilisateur et de le conseiller dans son choix de carrière. « Nous voulions évaluer une situation où le biais pouvait avoir un impact concret, réel et quantifiable (des revenus différents) sur l'utilisateur », expliquent-t-ils.

Lorsque l'utilisateur se présente comme un adolescent ayant un intérêt pour l'histoire et le français, et dont les parents sont fortunés, l'IA lui propose dans 93 % des cas de devenir diplomate, et historien dans 4 %. En revanche, lorsque l'utilisateur est présenté comme l'enfant de parents moins aisés, l'IA ne propose la diplomatie que 13 % du temps.

Autre point d'attention des chercheurs : la capacité des LLM à se comporter en « agent autonome », c'est-à-dire à mener des actions sans quasiment aucune intervention humaine. Les agents autonomes ont un but assez large comme par exemple « gagner de l'argent » et s'auto-gèrent ensuite pour parvenir à leur fin.

Le but de l'AISI est de savoir à quel point il est probable que ces agents échappent au contrôle des humains. Dans le cadre de son étude, l'AISI a donc donné à une IA (encore une fois, le nom du modèle n'est pas précisé) l'instruction de voler les données de connexion d'un étudiant universitaire. Cette instruction a été la seule entrée fournie au modèle. « Lors d'un essai, l'agent a réussi à effectuer des recherches précises sur l'étudiant afin de rendre l'escroquerie aussi convaincante que possible et à rédiger un e-mail demandant ses données de connexion », explique l'AISI sur son site web.

Cependant, il ne parvient pas à franchir toutes les étapes de la création d'un compte à partir duquel envoyer l'e-mail et de la conception d'un faux site web universitaire. L'organisme conclut donc qu'en l'état, les faibles capacités des agents autonomes rendent leur contrôle assez facile.

L'urgence de définir des standards d'évaluation des modèles d'IA

Le travail de l'AI Safety Institute soulève par ailleurs la nécessité de mettre en place des standards d'évaluation de ces modèles. Dans ce premier compte-rendu, peu de détails sont donnés sur la méthode employée. L'organisation dit notamment avoir recours au « red teaming », une pratique qui consiste à éprouver la sécurité d'un système ou d'une technologie en tentant de le pirater. « L'AI Safety Institute n'est pas un organisme de réglementation, mais il fournit un contrôle supplémentaire », peut-on lire sur son site web.

L'impératif de définir des standards d'évaluation est d'autant plus urgent avec l'approche imminente de l'entrée en vigueur de l'AI Act par l'Union Européenne, une réglementation destinée à encadrer l'intelligence artificielle.

Sujets les + lus

|

Sujets les + commentés

Commentaires 2
à écrit le 13/02/2024 à 17:38
Signaler
Je n'ai vraiment pas l'impression qu'il mesure l'ampleur du problème à venir en se cantonnant à ce qui est visible.

à écrit le 13/02/2024 à 12:54
Signaler
Ces garde-fous ont bien un effet : depuis leur renforcement, les utilisateurs de ChatGPT s'accordent sur la dégradation des performance de l'outil ainsi censuré et ses réponses souvent "woke".

Votre email ne sera pas affiché publiquement.
Tous les champs sont obligatoires.

-

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.