« Nos modèles d'IA vont faire un autre bond de performance dans l'année » (Tom Brown, cofondateur d'Anthropic)

ENTRETIEN - Dans la bataille de l'intelligence artificielle, Anthropic a tout pour jouer les premiers rôles. Fondée en 2021 par cinq anciens cadres d'OpenAI, partis sous fonds de désaccord stratégique, la startup a fait des débuts relativement discrets. Mais ces derniers mois, elle multiplie les coups d'éclat, au point de s'affirmer comme le parfait rival du créateur de ChatGPT, et de lorgner sur la place de numéro un des modèles d'IA. Ambitions, course à la performance, modèle économique... La Tribune fait le point avec Tom Brown, cofondateur et CTO d'Anthropic, rencontré lors de sa première visite en France à l'occasion de l'AWS Summit Paris 2024.
François Manens
Tom Brown, un des cinq cofondateurs de Anthropic et ancien ingénieur de OpenAI.
Tom Brown, un des cinq cofondateurs de Anthropic et ancien ingénieur de OpenAI. (Crédits : Anthropic)

LA TRIBUNE- Anthropic avait levé plus de 1,5 milliard de dollars entre sa création en 2021 et le début de l'année 2023, mais tout s'est accéléré en septembre lorsque Amazon a investi quatre milliards de dollars, suivi peu après par Google avec deux milliards de dollars. Ces investissements font de vous la deuxième startup d'IA la mieux financée au monde, derrière OpenAI, qui a reçu plus de treize milliards de dollars de la part de Microsoft. Peut-on parler d'un avant et d'un après l'arrivée d'Amazon dans les ambitions d'Anthropic ?

TOM BROWN  - Oui, clairement. Cet investissement, c'est du charbon en plus pour alimenter le moteur de notre machine : l'argent est un des principaux ingrédients pour faire un modèle de qualité, car il permet d'accéder aux grands volumes de puissance de calcul indispensables à notre échelle. Le deuxième ingrédient, tout aussi important, c'est la capacité de nos équipes à traduire ces ressources exceptionnelles en performances dans nos modèles.

Historiquement, nous avions un grand désavantage financier face à OpenAI, mais nous sommes parvenus à rester dans le coup en ayant une meilleure efficacité algorithmique. En réalité, Claude 3 ne reflète pas nos nouveaux moyens ! Les investissements que nous avons reçus l'an dernier ne se sont pas encore concrétisés en modèles, car le développement prend du temps. Ils vont permettre à nos prochains modèles d'être encore meilleurs que nous l'espérions.

Parlons de Claude 3, votre modèle sorti le mois dernier. Vous avez fait le choix de présenter trois déclinaisons (Opus, Sonnet et Haiku), avec des performances et des coûts différents. Pourquoi ne pas se contenter d'une seule version ?

Nous avions deux objectifs. Premièrement, avoir le meilleur modèle du monde sur les tâches les plus difficiles et ainsi détrôner GPT-4 [le meilleur modèle d'OpenAI, ndlr]. C'est ce que fait Claude 3 Opus, comme nous l'avons démontré sur plusieurs benchmarks. Ensuite, nous voulions un modèle pour concurrencer GPT 3.5 Turbo [le modèle à bas coût de OpenAI, ndlr] sur les tâches les plus simples. Claude 3 Haiku est deux fois moins cher, tout en étant significativement plus intelligent. Pour compléter la famille, Claude 3 Sonnet offre un intermédiaire entre les deux en termes d'intelligence et de coûts.

Lire aussiIntelligence artificielle : avec Claude 3, Anthropic affirme détrôner son rival OpenAI

Entre mars 2023 et mars 2024, aucun modèle n'était parvenu à détrôner GPT-4 termes de performance. Comme vous l'avez souligné, Claude 3 Opus y parvient, mais de peu. Quelques doutes commencent à apparaître sur la capacité de l'écosystème à passer à l'étape supérieure, alors qu'en parallèle, les investisseurs misent sur une trajectoire exponentielle de la puissance des intelligences artificielles. Faut-il déjà s'inquiéter d'un coup d'arrêt du développement des IA ?

Personne ne peut être sûr que la trajectoire actuelle va se poursuivre pendant longtemps. Mais pour ce qui est du court terme, il ne faut pas s'inquiéter. Je pense qu'il faut s'attendre à de nombreuses avancées, chez nous, mais aussi chez OpenAI et les autres créateurs de modèles.

Doit-on s'attendre à une avancée significative de la part d'Anthropic dès cette année ?

Oui ! Prenez la différence de performance entre Claude 2 et Claude 3 : nous allons faire un nouveau bond en avant du même ordre. Pour la date de déploiement de ces prochains modèles, je ne vais pas faire de promesse [rires], mais disons qu'il va se passer beaucoup de choses dans l'année à venir.

« Notre modèle économique actuel est suffisant pour atteindre la rentabilité à terme »

L'industrie semble s'accorder sur la nécessité d'avoir des modèles plus petits et plus spécialisés afin d'augmenter la vitesse d'exécution et de réduire les coûts des IA en production. Face à cette tendance, pourquoi continuez-vous à chercher à créer le modèle le plus puissant au monde ?

Les personnes qui veulent tester les limites de ce qu'elles peuvent faire avec l'IA, sans se poser des questions de coût à l'échelle, ont besoin du modèle le plus intelligent possible. Je dirais même que pour certaines tâches, il est utile d'avoir le plus haut niveau de puissance, même si le coût et le temps de calcul sont plus élevés. En revanche, lorsqu'un déploiement d'IA commence à être trop cher, nous pensons comme tout le monde qu'il faut essayer de le faire fonctionner sur un modèle plus petit, qui pourra potentiellement faire la même tâche, à moindre coût.

Avec OpenAI, Mistral ou encore Meta, Anthropic fait partie d'une poignée d'entreprises à jouer des coudes dans la course au meilleur modèle. Pensez-vous qu'à terme cette course va couronner un grand vainqueur et qu'un modèle va s'imposer comme incontournable ?

Le nombre de cas d'usages pour ces modèles est tellement grand qu'il n'y aucune chance qu'un d'entre nous devienne le meilleur partout. C'est pour cette raison que je pense qu'Amazon a la bonne approche avec Bedrock [la plateforme d'IA générative de AWS, ndlr] : ils laissent aux clients le choix dans un éventail de modèles le plus large possible. Aux entreprises de trouver ensuite les modèles qui répondent le mieux à leurs besoins.

Lire aussiCourse à l'IA : OpenAI est-il vraiment rattrapé par la concurrence ?

Au début, la course au meilleur modèle se résumait à une course à la taille, mesurée en nombre de paramètres. Cet indicateur était mis en avant comme preuve de performance. Mais l'industrie semble désormais sortie de ce paradigme, et d'ailleurs ni vous ni vos concurrents ne communiquez sur le nombre de paramètres de vos derniers modèles.

Dans l'ancien temps de GPT-3 [le modèle d'OpenAI sorti en 2020, dont Tom Brown était l'ingénieur en chef, ndlr], la seule chose qui importait, c'était de passer à l'échelle, de faire plus gros, avec plus de paramètres encore et toujours. Aujourd'hui, on se concentre sur comment optimiser au mieux nos modèles. Nous cherchons comment mettre en œuvre les bons algorithmes, avec les données les plus pertinentes et le meilleur hardware, afin de créer le modèle le plus performant pour le cas d'usage que nous essayons de cibler. Le nombre de paramètres n'est plus qu'un critère parmi d'autres.

Une des particularités d'Anthropic, essentielle dans la genèse de l'entreprise, est l'importance accordée à l'évaluation des risques de l'IA. Vous avez même créé une échelle de dangerosité pour vos modèles, qui va de 1 à 4 [Claude 3 est évalué à 2 sur l'échelle, ndlr] et vous travaillez à l'élaboration de garde-fous adaptés à chaque niveau. Craignez-vous que ces précautions vous retardent dans la course à la performance ?

Le niveau ASL-2 attribué à Claude 3 Opus, qui est le modèle le plus intelligent au monde, signifie qu'il n'est pas du tout assez intelligent pour aider de façon substantielle à menacer l'humanité, par exemple en aidant à la fabrication d'une arme biologique. Nous faisons nous même les tests et l'évaluation de ce genre de risque avant la publication du modèle. Je suis persuadé que ces précautions nous permettent d'éviter toute une série de problèmes de sécurité a posteriori, qui seraient sinon en train de nous ralentir en ce moment même. Grâce aux garde-fous que nous avons mis en place et que nous nous forçons à respecter, nous évitons de publier nos avancées prématurément et c'est du temps gagné au final.

Aujourd'hui, tout votre chiffre d'affaires vient de la facturation de l'accès à vos modèles par API [un connecteur d'un site à un autre, ndlr], que ce soit en direct sur votre plateforme ou en indirect par le biais de services comme Bedrock de Amazon Web Services et Vertex AI de Google Cloud. Pensez-vous que ce mode de distribution est suffisant pour atteindre la rentabilité à terme, malgré les coûts colossaux de développement des IA ? Ou est-ce que vous aurez besoin de diversifier vos services, comme le fait déjà OpenAI ?

Le modèle de distribution par API est massif. Je ne pense pas qu'il y ait déjà eu un service d'AWS avec autant de demande que Bedrock. C'est du jamais vu, c'est immense ! Et ce marché va continuer à grossir avec le temps. C'est plus que suffisant pour atteindre nos objectifs.

Pour l'instant, Claude ne fait que produire du texte. Est-ce que vous avez des projets dans la génération d'image ?

Nous ne générons pas d'images car nous nous appliquons à créer des IA qui sont utiles au travail. Et j'ai l'impression que c'est un terrain de jeu suffisamment large pour nous occuper [rires].

François Manens

Sujets les + lus

|

Sujets les + commentés

Commentaires 5
à écrit le 05/04/2024 à 14:19
Signaler
Le type est sans doute au moins millionnaire, mais ne porte pas de chemise, c'est pour faire plus cool ?

le 05/04/2024 à 17:03
Signaler
"Le type est sans doute au moins millionnaire, mais ne porte pas de chemise, c'est pour faire plus cool ?" Probablement parce qu'il n'a pas les moyens de se payer une chemise en dollars US sonnants et trébuants car millionnaire en stock-option c...

à écrit le 05/04/2024 à 11:28
Signaler
IA devient un produit boursier ou sa valeur va devenir virtuelle est décorrelé du monde réel.

le 06/04/2024 à 10:38
Signaler
Nvidia est devenu la plus grosse capitalisation boursière, ce n'est pas une valeur virtuelle.

le 06/04/2024 à 19:41
Signaler
@Ménon "Nvidia est devenu la plus grosse capitalisation boursière, ce n'est pas une valeur virtuelle." La valorisation spéculative de nVidia est aussi réelle que celle d'Enron avant sa descente aux enfers...

Votre email ne sera pas affiché publiquement.
Tous les champs sont obligatoires.

-

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.