ChatGPT, bon pour créer, mauvais pour solutionner

OPINION. L'IA générative comme ChatGPT est mauvaise pour la résolution de problèmes, mais bonne pour l'innovation et la créativité, mais elle réduit la diversité et la créativité collective : c'est le résultat d'un test réalisé en entreprise par la Harvard Business School et la MIT Sloan School of Management. Par Jean-Jacques Quisquater, Université de Louvain, École Polytechnique de Louvain, Bruno Colmant, Université de Bruxelles, Solvay Business School, et Charles Cuvelliez, Université de Bruxelles, École Polytechnique de Bruxelles et Belfius.

Jean-Jacques Quisquater, Bruno Colmant et Charles Cuvelliez

09 Oct 2023, 13:37

Cette expérience quasi scientifique a été menée sur 750 consultants BCG. Ces derniers qui ont accepté de participer au test se sont vus attribuer deux tâches. La tâche d'innovation créative consistait à proposer des idées de nouveaux produits et des plans de commercialisation.

La tâche de résolution de problèmes consistait à identifier les origines et causes des défis auxquels faisait face une entreprise sur la base de données venant de l'intérieur et d'entretiens avec des dirigeants, un exercice coutumier des consultants.

Les participants devaient utiliser la version de ChatGPT basée sur GPT-4 pour résoudre le problème pour lequel ils étaient capables de trouver une réponse sans GPT-4 (c'est ce que le groupe témoin a fait). Justement, lorsqu'ils se sont basés sur ChatGPT, leurs résultats ont été 23 % moins bons que ceux effectuant la tâche sans GPT-4. Le groupe qui a utilisé GPT-4 pour cette tâche a même souvent accepté le résultat partiellement erroné de l'outil sans prendre le temps de trouver la réponse par lui-même (et se rendre compte que le résultat posait un problème).

C'est la capacité de ChatGPT à persuader de la véracité du contenu qu'il génère qui a leurré les consultants. Ils n'imaginaient pas le contester. Et pourtant comme tout outil d'IA générative, la justification est présentée par l'outil après le résultat plutôt que de bâtir le résultat petit à petit en le justifiant étape par étape.

En revanche, en utilisant OpenAI GPT-4 pour l'innovation et la créativité (ici de nouveaux produits), environ 90 % des participants ont amélioré leurs performances. Ils ont convergé vers un niveau de performance 40 % supérieur à celui de ceux travaillant sans GPT-4.

Pour les chercheurs, c'est clair : il est plus facile pour GPT-4 de proposer des idées créatives, novatrices ou utiles basées sur les grandes quantités de données sur lesquelles ils ont été formés. Mais malheureusement, quand on demande aux outils tels que ChatGPT de peser des données qualitatives et quantitatives nuancées pour répondre à une question complexe, la désillusion est au rendez-vous.

La perception des gens contredit la réalité

Ce qui n'arrange rien, c'est que les consultants de BCG semblaient se méfier de ChatGPT plus pour les domaines où elle peut apporter une valeur considérable (idéation et créativité) et, au contraire, lui faire trop confiance dans les domaines où la technologie n'est pas compétente (résolution de problèmes). Même lorsque les sujets ont été entrainés aux limites de la technologie, cela n'a pas changé leur perception.

La diversité diminue

Les résultats relativement uniformes de ChatGPT ont réduit de 41 % la diversité de pensée d'un groupe. Cette perte de diversité est compensée par un nivellement par le haut : presque tous les participants (environ 90 %), quelle que soit leur compétence de base, ont produit des résultats de meilleure qualité lorsqu'ils ont utilisé GPT-4 pour la tâche d'innovation. La variance des performances est considérablement réduite. En d'autres termes, les participants ayant des compétences de base plus faibles, lorsqu'ils ont eu accès à l'IA générative, ont fini par donner d'aussi bons résultats que ceux ayant des compétences plus élevées sur le domaine.

Le corollaire, comprend-t-on, pour les chercheurs, c'est que GPT-4 atteint un niveau de performance si élevé dans la tâche d'innovation que tout effort par après pour l'améliorer le diminuera ! Il vaut donc mieux ne plus y toucher. C'est y aller fort tout de même.

Nouveaux risques

Que faut-il privilégier entre les gains de performance individuelle et perte de créativité collective qu'un usage généralisé de ChatGPT produira. Le résultat fourni par les participants utilisant ChatGPT était individuellement meilleur mais collectivement répétitif.

Pour corriger en partie ce problème, il est crucial de disposer de ses propres données : si plusieurs entreprises appliquent ChatGPT à des tâches similaires sur base des mêmes données (par exemple le contenu d'Internet), cela peut produire un effet de nivellement parmi les organisations. En conséquence, l'une des clés de la différenciation sera la capacité d'affiner les modèles d'IA génératifs avec de grands volumes de données de haute qualité qui viennent de son entreprise, donc originales

Les gens devraient aussi considérer le résultat créatif de l'IA générative comme une ébauche finale plausible. Il faut, expliquent les chercheurs, une formation efficace et continue qui aborde explicitement tous les biais cognitifs qui peuvent conduire les gens à s'appuyer de manière excessive sur l'IA générative, savoir aussi quand et où elle n'a pas encore atteint la compétence requise. Et pour le savoir, chaque entreprise doit créer un laboratoire d'IA générative pour déterminer où s'arrête le domaine de compétence de l'IA générative appliqué à son propre métier.

Enfin, il faudra préserver la diversité de la pensée dans l'entreprise, car à long terme la créativité collective diminuera. La multiplication des applications d'IA générative pourrait être une solution, en n'équipant pas tout le monde du même outil à moins que l'algorithme sous-jacent, GPT-4, ne soit à l'origine de l'uniformisation que l'étude pointe à trop utiliser l'AI.

______

Pour en savoir plus

Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality (September 15, 2023). Harvard Business School Technology & Operations Mgt. Unit Working Paper No. 24-013, Dell'Acqua, Fabrizio and McFowland, Edward and Mollick, Ethan R. and Lifshitz-Assaf, Hila and Kellogg, Katherine and Rajendran, Saran and Krayer, Lisa and Candelon, François and Lakhani, Karim R., or http://dx.doi.org/10.2139/ssrn.

Sujets les + lus

Sujets les + commentés

Emploi : les vraies raisons des vagues de départs des salariés français

Affaire Abbé Pierre : « Ceux qui minimisent se trompent » (Christophe Robert, délégué général de la Fondation Abbé Pierre)

Les énergies renouvelables coûteront six fois plus cher que prévu à l'Etat en 2024

En France, les prix de marché de l’électricité resteront déterminés par ceux du gaz, affirme RTE

La chaîne C8 paye au prix fort ses dérapages et perd sa fréquence TNT

Commentaires 3

Philo de café à écrit le 11/10/2023 à 12:26

Signaler

C'est là que les consultants du BCG qui se croyaient des artistes, des créateurs, faisant preuve d'idées nouvelles, ont découvert qu'ils n'étaient que des techniciens, des gens uniquement capables de mettre en forme des éléments issus d'expériences d...

Dossier 51 à écrit le 10/10/2023 à 9:09

Signaler

Difficile de dresser un portrait d'une technologie qui progresse sans cesse alors même si nous sommes encore très loin d'une véritable intelligence, les processeurs ne sont pas intelligents, l'incroyable marge de progression entre la machine et la pe...

Réponse de La clé de Barbe bleue le 15/10/2023 à 11:42

Signaler

On sait quand-même certaines choses. Il y a deux types de risques. Les premiers sont conventionnels (du genre "l'IA détruira massivement des emplois", "l'IA créera des inégalités massives", etc). Ce sont des risques certains, déjà avérés. Ce n'est do...

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

Tribunes

ChatGPT, bon pour créer, mauvais pour solutionner

La perception des gens contredit la réalité

La diversité diminue

Nouveaux risques

Newsletter - Votre Tribune de la semaine