Après le redéploiement de Claude Fable 5, Anthropic dévoile une échelle de gravité des "jailbreaks"
Ce contenu est réservé aux abonnés La Tribune

Illustration
anthropic
Ce contenu est réservé aux abonnés La Tribune

Illustration
anthropic
Anthropic a redéployé mondialement son modèle Claude Fable 5 après que le département américain du Commerce a levé les contrôles à l'exportation qui avaient maintenu le système d'IA hors ligne pendant 19 jours, et a publié jeudi un nouveau cadre industriel pour évaluer la gravité des jailbreaks des IA.
Le département du Commerce a imposé des contrôles à l'exportation sur Fable 5 et le modèle Mythos 5, plus performant, le 12 juin, après que des chercheurs d'Amazon ont découvert une technique de contournement ("jailbreak") qui amenait Fable 5 à signaler des vulnérabilités logicielles et, dans un cas, à rédiger du code de démonstration d'exploit. Cette décision a fait suite à un appel téléphonique du PDG d'Amazon, Andy Jassy, au secrétaire au Trésor Scott Bessent au sujet de cette découverte.
Le secrétaire au Commerce Howard Lutnick a formellement levé les restrictions dans une lettre datée du 30 juin, indiquant qu'une licence n'était « plus requise pour l'exportation, la réexportation ou le transfert dans le pays » de l'un ou l'autre des modèles.
En contrepartie, Anthropic s'est engagé à détecter et à traiter les risques de sécurité de manière proactive, à contribuer à l'élaboration de normes pour les futurs modèles, et à signaler toute activité malveillante au gouvernement. Anthropic a confirmé le rétablissement sur X dans la soirée, et Fable 5 a été remis à disposition des utilisateurs du monde entier le 1er juillet sur Claude.ai, Claude Code et Claude Cowork.
Le 2 juillet, Anthropic a publié une documentation détaillée sur les classificateurs de sécurité de Fable 5, qui répartissent les demandes liées à la cybersécurité en quatre catégories plutôt que de bloquer systématiquement toutes les requêtes de ce type.
Chaque jour à 13h, l’essentiel de l’actualité tech.

Le développement de ransomwares, la diffusion de logiciels malveillants et les attaques contre les infrastructures critiques sont toujours bloqués, tandis que les tests de pénétration et le développement d'exploits restent restreints dans l'attente de meilleurs contrôles d'autorisation. Les tâches défensives telles que le codage sécurisé, la gestion des correctifs et la formation à la sécurité sont autorisées par défaut.