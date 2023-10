Pour être les plus performants possibles, les modèles d'intelligence artificielle (IA) ont besoin de s'entraîner. Leur carburant : les données. Pour la Cnil, l'institution garante de la vie privée des Français, la constitution de bases de données d'apprentissage pour ces systèmes n'est pas incompatible avec le respect des données personnelles. Selon elle, les activités de recherches et développements en IA sont « compatibles » avec le RGPD, le règlement européen sur la protection des données. « À condition de ne pas franchir certaines lignes rouges et de respecter certaines conditions », souligne-t-elle.

Lire aussiRègles de l'IA : le Parlement européen franchit un pas historique

Les bonnes pratiques listées

Pour clarifier ce qu'il est possible ou non, la Cnil a publié ce jeudi 12 octobre des « fiches pratiques ». « Elles permettent d'apporter des réponses concrètes, illustrées d'exemples, aux enjeux juridiques et techniques liés à l'application du RGPD à l'IA », indique la Commission.

Lire aussiLa startup française Giskard, futur maillon indispensable dans l'écosystème de l'IA générative ?

Ainsi, alors que le RGPD impose d'indiquer clairement l'objectif d'un traitement de données, « en matière d'IA, la Cnil admet qu'un opérateur ne puisse pas définir au stade de l'entraînement de l'algorithme l'ensemble de ses applications futures, à condition que le type de système et les principales fonctionnalités envisageables aient été bien définies », affirme la Commission.

Le règlement n'interdit pas non plus de nourrir un algorithme avec de gigantesques corpus de données. « Les données utilisées devront en revanche, en principe, avoir été sélectionnées pour optimiser l'entraînement de l'algorithme tout en évitant l'utilisation de données personnelles inutiles », précise la Cnil.

Lire aussiIA : ChatGPT peut désormais aller chercher des données directement sur internet et recueillir des informations actualisées en temps réel

La réutilisation de données publiquement accessibles est également possible pour entraîner des IA, « sous réserve de vérifier que les données n'ont pas été collectées de manière manifestement illicite et que la finalité de réutilisation est compatible avec la collecte initiale », souligne la Commission.

Dernier point qui devrait rassurer les startups et entreprises françaises engagées dans le secteur, « la durée de conservation des données d'entraînement peut être longue », notamment si cela est justifié par « un investissement scientifique et financier important ».

Consultation publique en cours

Pour élaborer ces fiches pratiques, la Cnil a organisé une série de rencontres avec des acteurs publics et privés « pour recueillir leurs observations ou leurs interrogations sur la constitution de bases de données d'apprentissage de systèmes d'IA ».

L'ensemble de ces fiches est soumis à consultation publique jusqu'au 16 novembre prochain. Tout le monde est invité à donner son avis (personnes physiques ou morales, publiques ou privées). La Cnil espère en particulier mobiliser l'ensemble des acteurs de l'IA (entreprises, chercheurs, universitaires, associations, conseils juridiques et techniques, etc.). « Les contributions seront analysées à l'issue de la consultation publique pour permettre la publication des fiches définitives, sur le site web de la Cnil, début 2024 », précise-t-elle.

La Commission assure par ailleurs que ces premières fiches pratiques seront complétées, « avant la fin de l'année 2023 », par d'autres fiches portant notamment sur la base légale de l'intérêt légitime, la gestion des droits et l'information des personnes concernées lors de la phase de développement.

(Avec AFP)