« Nous pouvons difficilement imaginer des progrès thérapeutiques sans un grand volume de données et un accompagnement digital », lance Jean-François Brochard, président de la Fondation Roche, à l'occasion d'un colloque consacré aux données de santé. Les acteurs du secteur, à l'image de la société pharmaceutique suisse, s'intéressent de près à l'utilisation de l'intelligence artificielle (IA). Mais ils se heurtent aujourd'hui à un frein : l'accès aux données.
Pourtant, certaines entreprises technologiques font déjà les gros titres avec leurs algorithmes prédictifs appliqués au monde médical. Récemment, DeepMind a présenté une IA capable de pronostiquer les insuffisances rénales aiguës 48 heures avant le diagnostic humain. Quelques mois auparavant, son entreprise mère, Google, publiait dans la revue scientifique Nature les résultats de son projet de détection du cancer des poumons, plus performant que les diagnostics de médecins.
Mais DeepMind et Google sont les arbres qui cachent la forêt. En réalité, très peu de solutions à base d'IA sont mises en production pour un impact à grande échelle. Le 24 septembre, une équipe de chercheurs britanniques a publié dans le Lancet Digital Health une analyse sur plus de 20 .000 articles consacrés à l'aide au diagnostic par l'intelligence artificielle, pour évaluer le sérieux des recherches.
Des algorithmes performants difficiles à mettre au point
Leur constat est sans appel : la plupart des démonstrations manquent cruellement de robustesse. Selon eux, seules 1 % de ces études sont suffisamment sérieuses dans leur démarche scientifique pour qu'on puisse accorder du crédit à leurs prétendues avancées.
« Si l'étude n'est pas suffisamment bien conçue, il est facile d'introduire des biais dans les résultats. Ces biais peuvent mener à largement exagérer les performances réelles de l'outil », écrit Xiaoxuan Liu, coauteure de l'étude et docteur à l'université de Birmingham.
Si les chercheurs peinent tant à construire des algorithmes performants, c'est en partie à cause du manque de données.
Les modèles d'IA s'appuient, le plus souvent, sur des algorithmes d'apprentissage automatique. Leur fonctionnement est relativement simple : les développeurs donnent au système des exemples variés de ce qu'il doit détecter - par exemple, un tissu cancéreux -, et l'ordinateur fait émerger ses propres critères pour le reconnaître sur une photo nouvelle de tissu humain.
Plus la qualité et le nombre de données fournies à la machine seront importants, plus son résultat sera précis et pertinent. C'est pourquoi DeepMind a conclu un partenariat avec la NHS - la Sécurité sociale britannique - pour alimenter en données ses algorithmes, par exemple. Pour répondre à cette demande, la France organise ses données. À commencer par les données publiques déjà existantes, celles de l'Assurance maladie ou des hôpitaux : remboursement de médicaments, prescriptions, comptes rendus médicaux, entrée et sorties des établissements de santé... Toutes sont vouées à rejoindre le Health Data Hub, une structure recommandée par le rapport Villani sur l'IA, créée dans le cadre du projet de loi « ma santé 2022 ».
Dans un premier temps, dix projets lauréats vont avoir un accès sécurisé au Hub pour y ajouter leurs données et y entraîner leurs algorithmes. Parallèlement à cette initiative, d'autres projets voient le jour. Par exemple, l'Assistance publique-Hôpitaux de Paris a lancé en 2018 une plateforme, baptisée ComPaRe, pour Communauté de patients pour la recherche. L'objectif : générer des données sur les maladies chroniques. Pour y parvenir, la plateforme recrute des patients, qui consentent à fournir leurs informations médicales. Ils peuvent répondre à des questionnaires posés directement par les équipes de recherche, et ainsi livrer des éléments d'une précision rare, taillés pour des cas spécifiques.
« Les patients connaissent très bien leur maladie et leur traitement, et ils fournissent des données de très bonne qualité. En plus, ce sont des informations que nous ne pouvons pas générer autrement », développe le Dr Viet-Thi Tran, chercheur et copilote de ComPaRe.
La plateforme a recruté 30 000 patients, atteints de 200 maladies différentes, mais veut en attirer le triple, pour couvrir le plus de cas possible. « Ce qui compte dans la majorité des recherches, ce n'est pas d'avoir un échantillon représentatif, mais d'avoir un échantillon divers. Nous voulons tester les traitements et outils de diagnostic sur des personnes qui ont une forme plus ou moins sévère de la maladie, qui sont plus ou moins âgés, issues de milieux différents... », précise le chercheur.
Au cœur du débat, le consentement du patient
Les données de santé sont, pour la plupart, des « données sensibles » au regard de la législation. Leur recueil et leur exploitation sont donc soumis à l'expression d'un consentement « clair et explicite », et la finalité de leur utilisation doit clairement être exprimée.
« Même s'il existe un blocage culturel à donner ses données, principalement lié à la peur des géants du Net, les Français perçoivent que celles-ci sont utiles pour l'avancée de la recherche », expose Judith Mehl, membre d'Ethik-IA, une initiative citoyenne visant à favoriser une « régulation positive » de l'IA.
Le patient doit être tenu informé de tout changement dans l'utilisation des données, et être en capacité de retirer son consentement à tout moment s'il le souhaite. Pour renforcer ce droit dans les textes français, les législateurs ont déjà posé leurs réflexions. L'article 11 du projet de loi sur la biodiversité garantit la nécessité du droit à l'information sur l'usage des données de santé et place les professionnels de santé en garants de l'action des IA.
« Le projet de loi bioéthique instaure une régulation douce. Il permet de générer un cadre de sécurité qui place l'humain au centre, mais qui fait en sorte de respecter le développement de l'innovation, se réjouit Judith Mehl. Tous les voyants sont désormais au vert pour développer l'IA en santé. »
Sujets les + commentés