Big Data : trouver l'aiguille de l'information dans des meules de données

 |   |  1150  mots
Copyright Reuters
Copyright Reuters
Chaque minute, 204 millions de mails sont échangés, 47000 applications mobiles sont téléchargées, 3000 photos sont mises en ligne - et 20 personnes sont victimes d'usurpation d'identité. Au total, plus d'un demi teraoctet[1] de données sont échangés. Et ces nombres continueront à augmenter avec l'évolution de l'usage d'internet mais surtout celui de ses « usagers » - il y aura en effet bientôt plus d'objets que de personnes reliés à internet.

Votre voiture signalera au concessionnaire un besoin de maintenance évitant une panne et aidera votre assureur à vous proposer une couverture plus adaptée à votre conduite. Votre machine à laver pourra mettre à jour un programme de lavage plus économe. Le réseau électrique indiquera à chaque véhicule électrique le moment le plus opportun pour se recharger en évitant les files d'attente aux bornes. Tous les secteurs bénéficieront ainsi du Big Data, c'est à dire de l'analyse de masses considérables de données d'origines (réseaux sociaux, blogs, capteurs...) et de formats (textes, videos, géolocalisation ...) multiples.

Quel impact sur la sécurité ?
Le potentiel de ces technologies est considérable, mais il soulève des craintes en matière de sécurité qui le sont tout autant : si les données, autrefois limitées à l'usage pour lequel elles étaient collectées (comme identifier son client pour un commerçant) voient leur utilisation se multiplier à l'infini, ne va-t-on pas aussi multiplier les risques à l'infini ? Le développement des solutions big data reposant sur de grandes masses de données hébergées par des solutions matérielles et logicielles diverses et déployées sur des réseaux parfois externes, ne va-t-il pas augmenter à la fois les points de vulnérabilité, et l'ampleur des conséquences en cas d'attaque ?

 Notons d'abord qu'il est souvent plus aisé d'accéder à une donnée sensible grâce à des vulnérabilités humaines (obtenir par ruse des informations au téléphone, s'introduire dans un bâtiment sous une fausse identité...) qu'en tirant partie de failles techniques. D'autre part, les bases de données classiques concentrent souvent dans un même lieu des données structurées alors que les données du Big Data se présentent à prime abord sous des supports distribués et peu accessibles. Enfin, un fichier client peut se copier sur la carte mémoire d'un téléphone. Ce n'est pas le cas pour une masse de données de plusieurs pétaoctets, dont le temps de téléchargement est également prohibitif (plusieurs années). Le Big Data rend par ailleurs possible de nouveaux outils [2] qui utilisent sa puissance pour déjouer les attaques des pirates, par exemple en détectant en temps réel les transactions bancaires suspectes.

Plus de moyens de contrôle

Soulignons enfin que, géré de façon professionnelle, un projet de Big Data s'accompagne généralement d'une augmentation des moyens consacrés à la sécurité de données au regard des risques potentiels. Il existe en effet de nombreuses techniques pour protéger l'anonymat, qu'il s'agisse de méthodes de collecte (confier le traitement de données ne devant pas être rapprochées à des entités indépendantes), d'algorithmes de hachage (qui permettent de masquer l'identité des personnes) ou de contraintes portant sur les requêtes pour rendre impossibles l'identification des personnes, même indirecte.

Une régulation compétitive pour pérenniser notre modèle de protection
Le développement du Big Data fait l'objet d'une concurrence mondiale intense entre entreprises et entre Etats. Pour avoir une chance d'en influencer les normes, notamment de protection des données individuelles, nous devrons être à la fois présents et compétitifs. Pour cela, il faudra relever trois défis:

 - Le défi de la vision et des moyens

Alors que le volume des données augmente de 40 % par an, les budgets informatiques progressent dix fois moins vite. Nous manquons de compétences propres au Big Data, qu'il s'agisse de « data scientists » disposant à la fois de compétences statistiques, en programmation et en architecture informatique, de « business analysts » capables de traduire les résultats de ces analyses en opportunités commerciales, ou de spécialistes en « Big Sécurité ». Par ailleurs, hormis les directeurs informatiques, rares sont les membres de comité exécutif maîtrisant ces enjeux. De ce fait, très peu d'entreprises disposent d'une feuille de route operationnelle en matière de Big Data.

 - Le défi de la sécurité des données

Le Big Data manipule des données qui doivent être protégées conformément à une législation à la fois fluctuante dans le temps et selon les Etats. Une fuite de données sensibles peut entacher durablement l'image de marque d'une organisation et causer de coûteux contentieux. Ces risques peuvent tout à fait être maîtrisés par une conception adaptée des projets, et grâce à des audits limitant les dérives ultérieures. Mais cette maîtrise ne s'improvise pas, et sera difficile à réaliser sans l'appui d'un partenaire ayant développé une compétence forte (par exemple, un fournisseur d'équipements) ou d'un conseil spécialisé.

 - Concilier régulation et stratégie d'innovation

 Dans le domaine du téléphone mobile, l'Europe a su faire de sa norme GSM un avantage compétitif permettant un développement du mobile plus rapide qu'aux Etats-Unis. A l'inverse, c'est en grande partie en raison de l'existence de langues multiples en Europe que les initiatives de moteurs de recherche européens ont rapidement été dominées par leurs concurrents américains, capables de s'adresser avec le même produit à des centaines de millions d'utilisateurs parlant la même langue. En matière de Big Data, les entreprises sont en Europe dans le deuxième cas, soumises à un patchwork de lois conçues dans une vision traditionnelle de collecte, de stockage et d'utilisation prévisible et ordonnancée des données, difficilement transposable aux données massives. Elles se battent face à la compétition mondiale avec des handicaps que n'ont pas leurs concurrents. Un travail important est donc encore nécessaire pour définir un cadre qui soit à la fois protecteur des libertés individuelles, et favorable au développement du Big Data, tout en profitant des atouts offerts par la technologie pour maintenir - et même souvent renforcer - ce niveau de protection.

 Au total, l'efficacité et la réactivité avec laquelle nous adopterons, au niveau Européen, une telle approche de la régulation du Big Data déterminera notre capacité à développer des champions en Europe - centres de recherche de groupes mondiaux, ou entreprises européennes. Dans le cas inverse, ces développements se feront ailleurs, et nous serons triplement perdants : nous perdrons des emplois à valeur ajoutée, nous passerons à côté de l'essentiel des bénéfices économiques et nous n'aurons aucune prise sur les standards de protection de données qui nous seront imposés de l'extérieur.

 [1]Un teraoctet = mille megaoctets = mille milliards de caractères

[2]Voir par exemple http://www.agence-nationale-recherche.fr/Colloques/WISG2013/presentations/AAP09_E-FRAUD-BOX.pdf

*respectivement consultante senior en sécurité de l'information et président de l'Observatoire du Long terme de l'Institut de l'Entreprise et ancien directeur de cabinet du secrétaire d'Etat à la Prospective et au Développement de l'Economie Numérique.

 

 

Réagir

Votre email ne sera pas affiché publiquement
Tous les champs sont obligatoires

Commentaires
a écrit le 04/04/2013 à 11:27 :
1To = 1024 Go
a écrit le 04/04/2013 à 4:33 :
1 téraoctet = 1 000 gigaoctets = 1 000 000 mégaoctets.
a écrit le 03/04/2013 à 23:32 :
Le big data oui. Big brother; non !
a écrit le 03/04/2013 à 18:52 :
L'article rate son sujet en oubliant d'évoquer pourquoi le BigData n'a pas ses racines en Europe: Google, Amazon ou FB ont du faire face à des quantités énormes de données pour poursuivre leur expansion, et comme on a aucune entreprise d'une taille comparable ici (en terme de volume de données), on est à la ramasse complète: toutes les technos basées la mise en oeuvre du BigData sortent de boîtes US ou presque. Le 'cloud' dont France Telecom est partenaire met 10 ans à sortir et il n'aura pas ce qu'ont les américains, à savoir un fond de commerce qui rentabilise déjà l'infra-structure depuis des années. Comme personne n'a encore démontré qu'une infrastructure cloud indépendante est rentable à long terme, il est aussi possible que ce soit un bide commercial.n A contrario une boîte comme Amazon peut commercialiser son génial 'AWS' parce que de toute manière elle avait besoin de cette infrastructure pour se développer, ce qu'elle fait en commercialisant AWS c'est juste du gras. Un gras bien pensé, qui fait que n'importe qui dans le monde qui veut commercialiser du cloud va devoir faire d'abord exactement comme Amazon fait déjà, parce que c'est toujours le premier entrant qui impose son modèle. Ici on essaye de faire l'inverse, fabriquer une infrastructure et espérer qu'ensuite certains, encore inconnus, seront capables d'en faire quelque chose. C'est pas gagné, surtout s'il leur prend l'idée de faire une interface différente d'AWS...
Réponse de le 03/04/2013 à 19:14 :
C'est ce qu'ils disent à la fin : la régulation complexe, la masse critique américaine évoqués à la fin ont eu la conséquence que vous citez justement....
a écrit le 03/04/2013 à 17:48 :
Article bien naïf qui ne prend pas en compte l'intelligence humaine, à savoir qu'il y a uar toujours un "hacker" quel que soit le système adopté. Et, on le sait, la nature humaine étant ce qu'elle est, il est à redouter que les informations recueillies le soient à mauvais escient et non pas pour "le bien des gens" comme le suggère cet article. Une aiguille dans un tas de foin ? Certes non, il suffira d'entrer le nom du client pour savoir tout et plus sur lui. Il existe déjà des logiciels espions qui permettent de tracer toutes les opérations, y compris les conversations, effectuées sur un ordinateur.
Réponse de le 04/04/2013 à 15:34 :
Il est effectivement nécessaire de protéger les systèmes Big Data (matériels, logiciels, algorithmes) contre les "malwares" de plus en plus sophistiqués. Toutefois, cela demandera aussi de repenser les solutions classiques de sécurité : on ne protège pas de la même manière quelques Gigaoctets de données, à l'abri derrière les pare feux de l'entreprise, qu'une masse de plusieurs teraoctets, distribué sur plusieurs réseaux dans lesquels on ne connaît pas toujours la localisation physique de chaque donnée..
Pour ce qui est des traitements effectués sur nos données personnelles: les CNIL veillent, dans la mesure de leurs moyens à ce qu'ils n'entravent pas notre vie privée (cf. la procédure récente des CNIL de l'UE à l'encontre de Google et sa politique de confidentialité). Le challenge du législateur consiste plutôt à : 1) moderniser la loi en matière de protection des données 2) la rendre plus homogène et plus lisible à l'échelle européenne, sans qu'elle ne devienne un frein au développement du Big Data.
a écrit le 03/04/2013 à 16:33 :
Intéressant... Donc on est plus a l'abris derrière notre meule de données ????? Espérons le...

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

 a le à :