Big Data : trouver l'aiguille de l'information dans des meules de données

Chaque minute, 204 millions de mails sont échangés, 47000 applications mobiles sont téléchargées, 3000 photos sont mises en ligne - et 20 personnes sont victimes d'usurpation d'identité. Au total, plus d'un demi teraoctet[1] de données sont échangés. Et ces nombres continueront à augmenter avec l'évolution de l'usage d'internet mais surtout celui de ses « usagers » - il y aura en effet bientôt plus d'objets que de personnes reliés à internet.

Katia Gatwa-Keza et Vincent Champain

03 Avr 2013, 15:35

Votre voiture signalera au concessionnaire un besoin de maintenance évitant une panne et aidera votre assureur à vous proposer une couverture plus adaptée à votre conduite. Votre machine à laver pourra mettre à jour un programme de lavage plus économe. Le réseau électrique indiquera à chaque véhicule électrique le moment le plus opportun pour se recharger en évitant les files d'attente aux bornes. Tous les secteurs bénéficieront ainsi du Big Data, c'est à dire de l'analyse de masses considérables de données d'origines (réseaux sociaux, blogs, capteurs...) et de formats (textes, videos, géolocalisation ...) multiples.

Quel impact sur la sécurité ?
Le potentiel de ces technologies est considérable, mais il soulève des craintes en matière de sécurité qui le sont tout autant : si les données, autrefois limitées à l'usage pour lequel elles étaient collectées (comme identifier son client pour un commerçant) voient leur utilisation se multiplier à l'infini, ne va-t-on pas aussi multiplier les risques à l'infini ? Le développement des solutions big data reposant sur de grandes masses de données hébergées par des solutions matérielles et logicielles diverses et déployées sur des réseaux parfois externes, ne va-t-il pas augmenter à la fois les points de vulnérabilité, et l'ampleur des conséquences en cas d'attaque ?

Notons d'abord qu'il est souvent plus aisé d'accéder à une donnée sensible grâce à des vulnérabilités humaines (obtenir par ruse des informations au téléphone, s'introduire dans un bâtiment sous une fausse identité...) qu'en tirant partie de failles techniques. D'autre part, les bases de données classiques concentrent souvent dans un même lieu des données structurées alors que les données du Big Data se présentent à prime abord sous des supports distribués et peu accessibles. Enfin, un fichier client peut se copier sur la carte mémoire d'un téléphone. Ce n'est pas le cas pour une masse de données de plusieurs pétaoctets, dont le temps de téléchargement est également prohibitif (plusieurs années). Le Big Data rend par ailleurs possible de nouveaux outils [2] qui utilisent sa puissance pour déjouer les attaques des pirates, par exemple en détectant en temps réel les transactions bancaires suspectes.

Plus de moyens de contrôle

Soulignons enfin que, géré de façon professionnelle, un projet de Big Data s'accompagne généralement d'une augmentation des moyens consacrés à la sécurité de données au regard des risques potentiels. Il existe en effet de nombreuses techniques pour protéger l'anonymat, qu'il s'agisse de méthodes de collecte (confier le traitement de données ne devant pas être rapprochées à des entités indépendantes), d'algorithmes de hachage (qui permettent de masquer l'identité des personnes) ou de contraintes portant sur les requêtes pour rendre impossibles l'identification des personnes, même indirecte.

Une régulation compétitive pour pérenniser notre modèle de protection
Le développement du Big Data fait l'objet d'une concurrence mondiale intense entre entreprises et entre Etats. Pour avoir une chance d'en influencer les normes, notamment de protection des données individuelles, nous devrons être à la fois présents et compétitifs. Pour cela, il faudra relever trois défis:

- Le défi de la vision et des moyens

Alors que le volume des données augmente de 40 % par an, les budgets informatiques progressent dix fois moins vite. Nous manquons de compétences propres au Big Data, qu'il s'agisse de « data scientists » disposant à la fois de compétences statistiques, en programmation et en architecture informatique, de « business analysts » capables de traduire les résultats de ces analyses en opportunités commerciales, ou de spécialistes en « Big Sécurité ». Par ailleurs, hormis les directeurs informatiques, rares sont les membres de comité exécutif maîtrisant ces enjeux. De ce fait, très peu d'entreprises disposent d'une feuille de route operationnelle en matière de Big Data.

- Le défi de la sécurité des données

Le Big Data manipule des données qui doivent être protégées conformément à une législation à la fois fluctuante dans le temps et selon les Etats. Une fuite de données sensibles peut entacher durablement l'image de marque d'une organisation et causer de coûteux contentieux. Ces risques peuvent tout à fait être maîtrisés par une conception adaptée des projets, et grâce à des audits limitant les dérives ultérieures. Mais cette maîtrise ne s'improvise pas, et sera difficile à réaliser sans l'appui d'un partenaire ayant développé une compétence forte (par exemple, un fournisseur d'équipements) ou d'un conseil spécialisé.

- Concilier régulation et stratégie d'innovation

Dans le domaine du téléphone mobile, l'Europe a su faire de sa norme GSM un avantage compétitif permettant un développement du mobile plus rapide qu'aux Etats-Unis. A l'inverse, c'est en grande partie en raison de l'existence de langues multiples en Europe que les initiatives de moteurs de recherche européens ont rapidement été dominées par leurs concurrents américains, capables de s'adresser avec le même produit à des centaines de millions d'utilisateurs parlant la même langue. En matière de Big Data, les entreprises sont en Europe dans le deuxième cas, soumises à un patchwork de lois conçues dans une vision traditionnelle de collecte, de stockage et d'utilisation prévisible et ordonnancée des données, difficilement transposable aux données massives. Elles se battent face à la compétition mondiale avec des handicaps que n'ont pas leurs concurrents. Un travail important est donc encore nécessaire pour définir un cadre qui soit à la fois protecteur des libertés individuelles, et favorable au développement du Big Data, tout en profitant des atouts offerts par la technologie pour maintenir - et même souvent renforcer - ce niveau de protection.

Au total, l'efficacité et la réactivité avec laquelle nous adopterons, au niveau Européen, une telle approche de la régulation du Big Data déterminera notre capacité à développer des champions en Europe - centres de recherche de groupes mondiaux, ou entreprises européennes. Dans le cas inverse, ces développements se feront ailleurs, et nous serons triplement perdants : nous perdrons des emplois à valeur ajoutée, nous passerons à côté de l'essentiel des bénéfices économiques et nous n'aurons aucune prise sur les standards de protection de données qui nous seront imposés de l'extérieur.

[1]Un teraoctet = mille megaoctets = mille milliards de caractères

[2]Voir par exemple https://www.agence-nationale-recherche.fr/Colloques/WISG2013/presentations/AAP09_E-FRAUD-BOX.pdf

*respectivement consultante senior en sécurité de l'information et président de l'Observatoire du Long terme de l'Institut de l'Entreprise et ancien directeur de cabinet du secrétaire d'Etat à la Prospective et au Développement de l'Economie Numérique.

Sujets les + lus

Sujets les + commentés

Exportations: la Chine dit oui aux intestins de porc mais temporise sur le cognac

Les « dark stores » sont bien des entrepôts, le Conseil d'Etat donne raison au gouvernement

Pour réarmer l’Ukraine, l’Union européenne prête à utiliser les avoirs russes gelés

Nucléaire : pourquoi les EPR2 devraient être plus faciles à construire que l'EPR de Flamanville

AlphaFold 3 : Google a-t-il créé le ChatGPT de la biologie ?

Commentaires 8

Rock à écrit le 04/04/2013 à 11:27

Signaler

1To = 1024 Go

guillaume à écrit le 04/04/2013 à 4:33

Signaler

1 téraoctet = 1 000 gigaoctets = 1 000 000 mégaoctets.

sylvain à écrit le 03/04/2013 à 23:32

Signaler

Le big data oui. Big brother; non !

rourou à écrit le 03/04/2013 à 18:52

Signaler

L'article rate son sujet en oubliant d'évoquer pourquoi le BigData n'a pas ses racines en Europe: Google, Amazon ou FB ont du faire face à des quantités énormes de données pour poursuivre leur expansion, et comme on a aucune entreprise d'une taille c...

Réponse de Grobil le 03/04/2013 à 19:14

Signaler

C'est ce qu'ils disent à la fin : la régulation complexe, la masse critique américaine évoqués à la fin ont eu la conséquence que vous citez justement....

Patrickb à écrit le 03/04/2013 à 17:48

Signaler

Article bien naïf qui ne prend pas en compte l'intelligence humaine, à savoir qu'il y a uar toujours un "hacker" quel que soit le système adopté. Et, on le sait, la nature humaine étant ce qu'elle est, il est à redouter que les informations recueilli...

Réponse de Katia G. le 04/04/2013 à 15:34

Signaler

Il est effectivement nécessaire de protéger les systèmes Big Data (matériels, logiciels, algorithmes) contre les "malwares" de plus en plus sophistiqués. Toutefois, cela demandera aussi de repenser les solutions classiques de sécurité : on ne protège...

Smd à écrit le 03/04/2013 à 16:33

Signaler

Intéressant... Donc on est plus a l'abris derrière notre meule de données ????? Espérons le...

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

Tribunes

Big Data : trouver l'aiguille de l'information dans des meules de données

Newsletter - Votre Tribune de la semaine