Comment fonctionne le Health Data Hub, la plateforme des données de santé françaises ?
François Manens

Les données des organismes de santé publics seront rassemblées sur des serveurs spécialisés de Microsoft.
OVH
François Manens

Les données des organismes de santé publics seront rassemblées sur des serveurs spécialisés de Microsoft.
OVH
Le Health Data Hub est officiellement lancé. Cette plateforme regroupe toutes les données issues des organismes publics de santé (Assurance maladie, hôpitaux...), et les met à disposition de projets de recherche triés sur le volet. Il vient compléter le système national des données de santé, déjà en place depuis 2016. Pour accéder au Health Data Hub, les entreprises publiques comme privées doivent justifier que leur projet est d'intérêt général, et obtenir l'approbation du gendarme de la donnée, la Cnil.
Créé dans le cadre du projet de loi "Organisation et Transformation du système de santé", le Health Data Hub fait écho aux recommandations du rapport Villani de 2018 sur l'intelligence artificielle. Cette technologie porte de nombreuses promesses en santé : diagnostics plus précis, prédictions des crises et de l'évolution des maladies, découverte de nouveaux médicaments, optimisation du parcours de soin... Mais pour atteindre ces objectifs, les modèles d'intelligence artificielle doivent être nourris en données. Plus les chercheurs disposeront de données de qualité en grande quantité, plus leurs potentiels résultats seront significatifs.
Problème : elles sont difficiles à générer, et peu de dispositifs favorisent leur réutilisation. Plusieurs initiatives se sont donc créés pour pallier à ce manque, mais l'entrée de l'Etat comme fournisseur de données pourrait ouvrir un nouveau champ des possibles. Car avec son système centralisé de gestion des données liés aux soins, la France dispose d'une véritable mine d'or.
Stéphanie Combes, cheffe de projet du Health Data Hub, précise dans Le Monde qu'une procédure d'homologation de la plateforme est désormais en cours, afin d'accueillir les premiers projets au premier semestre 2020.
En avril, un jury nommé par le gouvernement a sélectionné 10 premiers projets liés au Health Data Hub, sur plus de 180 candidatures. Parmi les lauréats, aucun n'est issu de Big Pharma, et la moitié est portée uniquement par des acteurs publics. Ces 10 élus vont pouvoir entraîner leurs modèles d'intelligence artificielle à partir de données présentes dans le Hub, mais à aucun moment ils ne vont copier ou stocker ce précieux contenu. Concrètement, ils vont rentrer dans la bulle sécurisée du Health Data Hub, y verser leurs données et tester différents modèles. Ensuite, ils vont en ressortir le modèle le mieux optimisé, qui tournera ensuite sans connexion aucune avec le Hub.
Chaque jour à 13h, l’essentiel de l’actualité tech.

Pour prendre un exemple des interactions avec le Health Data Hub, la Tribune s'est intéressée au projet Hydro, menée par la startup Implicity. Ce travail de recherche vise à croiser les données cardiaques (en temps réel, issues de prothèses cardiaques) de la plateforme d'Implicity, avec les données des hospitalisations (date d'entrée, de sortie et cause de l'hospitalisation), contenues dans le Hub. L'objectif : établir un modèle de prédiction des crises cardiaques, et intervenir en amont.
Arnaud Rosier, le dirigeant de la startup, développe : le plus souvent, les crises cardiaques sont liées à une surabondance d'eau dans les poumons. Après une première hospitalisation, le risque de réhospitalisation à l'issue d'une nouvelle crise est de 40%, et le taux de mortalité grimpe alors à 20%. "Les patients entrent dans un cercle d'aggravation que nous voulons rompre", précise-t-il. Problème : il est difficile de repérer ces crises avant qu'elles se déclenchent.
Si le projet Hydro remplit ses promesses, tout médecin autorisé (généraliste, cardiologue, ou qui prend en charge aux urgences) pourrait accéder à l'ensemble des données, et renforcer la surveillance du patient aux moments pointés par le modèle prédictif des crises.
Les données du Health Data Hub seront stockées sur des serveurs de Microsoft, plutôt que chez l'acteur de référence français OVH. Un choix justifié car, comme le relève Le Monde, au moment du lancement du projet, le géant hexagonal ne disposait pas de serveurs dédiés à l'hébergement de données de santé, qui sont notamment soumis à des critères de sécurité encore plus importants. Mais les données seront conservées dans des datacenters de Microsoft installés en France.
Si le nom de Microsoft inquiète certains, ce n'est pas pour la qualité de ses services, mais à cause d'un texte de loi américain, le Cloud Act. Ce texte permet, dans le cadre d'une enquête pénale aux Etats-Unis, de forcer les hébergeurs de données américains (comme Microsoft ou Amazon) a communiquer certaines données. Un véritable problème puisque théoriquement, des juges américains pourraient saisir des données contenues dans le Hub.
À lire également
Mais dans les faits, les risques d'un tel scénario sont extrêmement minimes. Déjà les données du hub sont pseudonymisées, c'est-à-dire qu'il n'est pas possible de les lier à une personne physique sans données supplémentaires. Ensuite, l'article 48 du Règlement général sur la protection des données (le fameux RGPD) interdit le transfert de données de pays européens vers des pays tiers, sauf accords internationaux contraires. Or les négociations entre les États-Unis et l'Europe n'ont même pas encore commencé pour s'accorder sur la compatibilité de leurs textes.
François Manens