• La Tribune
  • La Tribune Dimanche
  • La Tribune Afrique
  • Air&Cosmos
  • |
  • Événements
  • L'instant Sélection
Une du journal La Tribune

Dernière édition

Flèche menu déroulant
Newsletters
Logo La Tribune
  • Économie
  • Finance
  • Tech & IA
  • Énergie & industrie
  • Transports
  • Défense & aérospatiale
  • Climat
Logo La Tribune
  • Économie
  • Finance
  • Tech & IA
  • Énergie & industrie
  • Transports
  • Défense & aérospatiale
  • Climat

Sélectionnez votre région

Logo La Tribune

RECHERCHER

Loupe

LTD
La Tribune Dimanche
Ouvrir dans une nouvelle fenêtre
Air&Cosmos icon
Air&Cosmos
Ouvrir dans une nouvelle fenêtre

À la une
  • Finances publiques
  • Fiscalité
  • Immobilier
  • Consommation
  • Distribution
  • Politique internationale
  • Finances personnelles
  • Banque & assurances
  • Marchés financiers
  • Intelligence artificielle
  • High tech
  • Télécoms
  • Start-up
  • Énergie
  • Politique industrielle
  • Chimie & pharmacie
  • Automobile
  • Mobilités
  • Aéronautique
  • Défense
  • Spatial
  • Environnement
  • Agriculture & agroalimentaire
Idées & débats
Kiosque numériqueNewsletters
La Tribune DimancheLa Tribune AfriqueAir&Cosmos
  • La Tribune Now
  • Votre argent avec Finance Héros
  • Construire les mobilités de demain
  • Fonction Finance 2.0 avec Cegid
  • Transformations durables avec Forvis Mazars
  • Accélérer avec le Cloud par AWS
  • Fisher Investments
  • Au coeur du business
  • VisionAir avec Bpifrance
  • Adaptabilité permanente : Le pouvoir d’agir avec IBM Consulting
  • Succès d'entreprises avec Deloitte
  • L'Œil sur vos Finances
  • Les Rencontres de Roissy Meaux Aéropôle
  • France Travail accompagne le Salon des Maires
  • La CCI Paris Ile-de-France, le réflexe des entrepreneurs
  • #La Tribune Business Interviews
  • #La Tribune Business Dossiers
  • #La Tribune Business TV
  • Instant Sélection
Événements
OpinionsTribunes

Des données anonymes… bien trop faciles à identifier

Luc Rocher

Publié le 19 septembre 2019 à 13:15

Photo d'illustration

Photo d'illustration

Reuters

L'essentiel de l'actualité

jeudi 4 juin

  • Legrand va supprimer 178 postes en France d'ici à 2028
  • Entretien automobile : 40 % des contrôles de la Répression des fraudes ont révélé des « manquements » en 2024
  • Le ministre français de l'Economie critique les nouveaux droits de douane de Trump
  • SpaceX vise une valorisation totale de 1 765 milliards de dollars pour son entrée en Bourse
  • Programmation militaire : Lecornu appelle le Parlement à « trouver une solution » pour voter la loi
Voir plus

Le Quotidien Numérique

04 juin 2026

Photo d'illustration de l'article
LireS'abonner

Les plus lus

  • 1

    « Nous pensions être face à une crise conjoncturelle. Elle est devenue structurelle » : Lavazza pris dans la tempête du marché du café

  • 2

    Budget : la sombre prévision de la Commission européenne pour la France

  • 3

    JO 2030 : « Nice fera ce qu’elle souhaite du projet de village olympique, mais la Solideo le stoppe »

  • 4

    Alice Taglioni, actrice et pianiste : « J’aurais adoré faire partie d’une bande de copines, mais on me renvoyait sans cesse à ma singularité »

  • 5

    Fer guinéen : 6 mois après ses premières expéditions vers la Chine, Simandou monte en puissance

  • 6

    « Certaines personnes en ont peur, mais moi, j’ai confiance » : Au Kazakhstan, l'État du tout-IA où les citoyens payent avec les lignes de leur main

Régions

  • Auvergne-Rhône-Alpes
  • Bourgogne-Franche-Comté
  • Bretagne
  • Centre-Val de Loire
  • Corse
  • Grand Est
  • Hauts-de-France
  • Île-de-France
  • Normandie
  • Nouvelle-Aquitaine
  • Occitanie
  • Pays de la Loire
  • Provence-Alpes-Côte d'Azur

La Tribune +

  • Espace abonné
  • Kiosque numérique
  • Annonces légales
  • Déposer vos annonces légales

Services

  • Supplément
  • La Tribune now

Evénements

  • ACT50
  • Aéroforum
  • AIM
  • Bordeaux Solar Summit
  • Family & Business Forum
  • Forum Europe Afrique
  • Impacts Santé
  • Les Lauréates
  • Paris Air Forum
  • Sommet Aéronautique & Spatial de Bordeaux
  • Sommet Économique de la Corse
  • Tech For Future
  • World News Media Congress
  • Tous nos événements en régions

Pour gérer vos consentements,

Suivez-nous sur les réseaux sociaux

YouTube
LinkedIn
Facebook
Instagram
X

Application mobile

App Store
Google Play

  • Nous Contacter
  • Charte d'indépendance et de déontologie
  • Mentions Légales
  • CGU
  • CGU Pro
  • Gestion des cookies
  • Exercez vos droits
  • Politique de confidentialité

Droits de reproduction et de diffusion réservés @LaTribune

Partenaire digital de confiance - Certification de qualité
  • La Tribune
  • La Tribune Dimanche
  • La Tribune Afrique
  • Air&Cosmos
  • |
  • Événements
  • L'instant Sélection
IDEE. Les données personnelles sont le carburant de l’économie numérique. Seulement voilà, nous n’avons pas envie que l’on nous trace. On nous dit qu’il est possible de les rendre anonymes. Vraiment ? Par Luc Rocher, Université catholique de Louvain

Téléphones, ordinateurs, cartes de crédit, dossiers médicaux, montres connectées, ou encore assistants virtuels : chaque instant de nos vies - en ligne et hors ligne - produit des données personnelles, collectées et partagées à grande échelle. Nos comportements, nos modes de vie, s'y lisent facilement. Mais faut-il s'en inquiéter ? Après tout, ces données qui nous révèlent sont souvent anonymisées par les organismes qui les collectent. C'est du moins ce que l'on peut lire sur leurs sites. Leur travail est-il efficace ? Et les données anonymes le sont-elles vraiment ? Dans notre dernier article publié dans la revue Nature Communications, nous développons une méthode mathématique qui montre que c'est loin d'être acquis. Elle a pu nous amener à réidentifier des individus parmi des bases de données anonymes et fortement échantillonnées, remettant en question les outils utilisés actuellement pour partager les données personnelles à travers le monde.

Matière première

D'abord, quelques ordres de grandeur. Ces dix dernières années, nos données personnelles ont été collectées à une vitesse inégalée : 90% de celles circulant sur Internet ont été créées il y a moins de deux ans ! Objets connectés, informations médicales ou financières, réseaux sociaux, ces données sont la matière première de l'économie numérique comme de la recherche scientifique moderne. Mais, très vite, on a vu apparaître certaines dérives. Notamment les atteintes à la vie privée qui se sont multipliées. Témoin, parmi de nombreuses affaires, le scandale Cambridge Analytica... Depuis, 80% des Européen·ne·s estiment avoir perdu le contrôle sur leurs données.

En réponse, les compagnies et organismes qui les collectent affirment souvent qu'elles le sont de manière « anonyme ». Par exemple, la société Transport for London (TfL), en charge du métro londonien, a entrepris de surveiller les déplacements des passagers sur le réseau via les signaux wifi « anonymes » de leurs téléphones portables. En Belgique, plus de 15 hôpitaux revendent les données confidentielles de leurs patients à une multinationale, Quintiles IMS, sous couvert d'anonymat. Enfin, en France, Orange et SFR ont revendu des données de géolocalisation en temps réel ou en différé, données là encore « anonymisées ».

Point intéressant, une donnée anonyme n'est plus considérée comme donnée personnelle. Elle échappe donc aux régimes de protection comme le RGPD en Europe. Partager des données personnelles anonymisées ne nécessite donc plus le consentement des participant·e·s... Puisqu'ils et elles sont anonymes !

Ré-identification

Or, des chercheur·e·s et journalistes ont depuis longtemps montré que certaines données anonymes peuvent être ré-identifiées. Dans les années 1990, Latanya Sweeney avait pu ré-identifier les données médicales de William Weld (alors gouverneur du Massachusetts), sur base de son code postal, sa date de naissance et son genre. Deux journalistes allemands ont récemment ré-identifié l'historique de navigation d'un juge et d'un député, retrouvant leurs préférences sexuelles et leurs traitements médicaux dans des données anonymes obtenues en se faisant passer pour des acheteurs potentiels. Et, aux États-Unis, les dossiers fiscaux du président américain Trump ont pu lui être ré-attribués par le New York Times en utilisant des données anonymes publiées par le fisc américain, l'IRS.

Newsletter

Ma Tribune

L’actualité qui compte pour vous, chaque jour dans votre boîte mail.

Illustration de la newsletter Ma Tribune

Compagnies et gouvernements minimisent souvent ces ré-identifications. Leur ligne de défense : parmi des petites bases de données, toujours incomplètes, personne ne saura jamais si une ré-identification est correcte ou non et si des chercheur·e·s ou journalistes ont vraiment réidentifié la bonne personne.

Cela implique que l'organisme collecteur fasse un travail dit d'échantillonage sur la base de données. Ainsi, l'autorité de protection des données australienne [OAIC], suggère dans son guide de dés-identification que l'échantillonnage augmente « l'incertitude qu'une personne particulière fasse réellement partie d'une base de données anonyme ». Prenons un exemple pour expliquer cela. Admettons que votre employeur retrouve des données vous correspondant dans un échantillon de 10 000 patients, soit 1 % d'une large base de données médicales. Ces données - comprenant par exemple votre lieu et date de naissance, genre, status marital, etc. - pourraient bien appartenir à une autre personne qui partage ces caractéristiques. Car cette base de données de 10 000 personnes ne représente que 0,015 % de la population française. Et ces données réidentifiées pourraient correspondre à n'importe quelle autre personne parmi les 99,985 % autres Français·e·s.

Échantillonner (partager par exemple 1 % d'une base de données) est ainsi une technique largement utilisée. Réduire la taille des données partagées permet de justifier que ces données sont anonymes, car personne ne pourra jamais prouver qu'une ré-identification est correcte.

Un algorithme qui remet en question l'anonymat

Le problème ? Nos travaux démontrent au contraire qu'un algorithme peut apprendre à estimer, avec grande précision, si des données réidentifiées appartiennent bien à la bonne personne ou non.

Il y a bien entendu, si c'est en France, de nombreux hommes trentenaires, habitant à Paris. Si je retrouve un seul homme de 30 ans parmi les données anonymes de 1 000 personnes, collectées et revendues par un cabinet d'assurance parisien, il y a peu de chance qu'elles correspondent à mon voisin Émeric. Les données correspondant à ces trois attributs (homme, 30 ans, habitant à Paris) seront sans doute celles d'un autre Français.

Mais au fur et à mesure que ces données s'enrichissent, qu'on apprend davantage de caractéristiques, il devient illusoire qu'une seconde personne ait les mêmes caractéristiques. Il y a ainsi sans doute un seul homme à Paris, né le 5 janvier 1989, roulant en vélo électrique et habitant avec ses deux enfants (deux filles) et un berger allemand : mon voisin Émeric.

Après avoir « appris » quelles caractéristiques rendent les individus uniques, notre algorithme génère des populations synthétiques pour estimer si un individu peut se démarquer parmi des milliards de personnes. Le modèle développé permettrait par exemple aux journalistes du New York Times de savoir à coup sûr si les dossiers identifiés appartenaient vraiment à Donald Trump.

Nos résultats montrent que 99,98 % des Américains seraient correctement ré-identifiés dans n'importe quelle base de données en utilisant 15 attributs démographiques. Les chiffres sont similaires à travers le monde (16 attributs en ajoutant la nationalité). Une quinzaine de caractéristiques qui suffisent à identifier un individu, ce n'est hélas pas beaucoup. Le « data broker » Acxiom, un courtier de données qui achète et qui revend nos données personnelles dans 60 pays, possède par exemple jusqu'à 5,000 attributs par personne.

Nos travaux remettent ainsi en question les pratiques actuelles utilisées pour dés-identifier des données personnelles. Cela interroge sur les limites de l'anonymisation : utiliser ainsi ces données protège-t-il toujours notre vie privée ? Alors que les standards d'anonymisation sont en passe d'être redéfinis par les pouvoirs publics, au niveau national et au sein de l'Union européenne, il est crucial pour ces standards d'être rigoureux, de promouvoir de meilleures méthodes de partage des données, et de prendre en compte tout risque futur. C'est à la fois important pour nos vies privées, pour la croissance de l'économie numérique et pour le dynamisme de la recherche scientifique.

The Conversation _______

Par Luc Rocher, Doctorant, ingénierie mathématique, Université catholique de Louvain

La version originale de cet article a été publiée sur The Conversation

Luc Rocher

Sur le même sujet

  • 1

    OPINION. « Les constructeurs automobiles chinois innovent-ils dans l’automobile ? »

  • 2

    OPINION. « Iran : le véritable adversaire de Trump est-il désormais Netanyahou ? »

  • 3

    OPINION. « La souveraineté énergétique française n’est pas négociable »

  • 4

    OPINION. « France-Inde, ou la souveraineté à deux »