• La Tribune
  • La Tribune Dimanche
  • La Tribune Afrique
  • Air&Cosmos
  • |
  • Événements
  • L'instant Sélection
Une du journal La Tribune

Dernière édition

Flèche menu déroulant
Newsletters
Logo La Tribune
  • Économie
  • Finance
  • Tech & IA
  • Énergie & industrie
  • Transports
  • Défense & aérospatiale
  • Climat
Logo La Tribune
  • Économie
  • Finance
  • Tech & IA
  • Énergie & industrie
  • Transports
  • Défense & aérospatiale
  • Climat

Sélectionnez votre région

Logo La Tribune

RECHERCHER

Loupe

LTD
La Tribune Dimanche
Ouvrir dans une nouvelle fenêtre
Air&Cosmos icon
Air&Cosmos
Ouvrir dans une nouvelle fenêtre

À la une
  • Finances publiques
  • Fiscalité
  • Immobilier
  • Consommation
  • Distribution
  • Politique internationale
  • Finances personnelles
  • Banque & assurances
  • Marchés financiers
  • Intelligence artificielle
  • High tech
  • Télécoms
  • Start-up
  • Énergie
  • Politique industrielle
  • Chimie & pharmacie
  • Automobile
  • Mobilités
  • Aéronautique
  • Défense
  • Spatial
  • Environnement
  • Agriculture & agroalimentaire
Idées & débats
Kiosque numériqueNewsletters
La Tribune DimancheLa Tribune AfriqueAir&Cosmos
  • La Tribune Now
  • Votre argent avec Finance Héros
  • Construire les mobilités de demain
  • Fonction Finance 2.0 avec Cegid
  • Transformations durables avec Forvis Mazars
  • Accélérer avec le Cloud par AWS
  • Fisher Investments
  • Au coeur du business
  • VisionAir avec Bpifrance
  • Adaptabilité permanente : Le pouvoir d’agir avec IBM Consulting
  • Succès d'entreprises avec Deloitte
  • L'Œil sur vos Finances
  • Les Rencontres de Roissy Meaux Aéropôle
  • France Travail accompagne le Salon des Maires
  • La CCI Paris Ile-de-France, le réflexe des entrepreneurs
  • #La Tribune Business Interviews
  • #La Tribune Business Dossiers
  • #La Tribune Business TV
  • Instant Sélection
Événements
OpinionsTribunes

Comment réduire l'impact environnemental des projets data ?

Jonathan Petit (*)

Publié le 25 août 2021 à 05:22

Le Quotidien Numérique

27 juin 2026

Photo d'illustration de l'article
LireS'abonner

Les plus lus

  • 1

    Dette publique : « Tout se met en place pour être progressivement étranglé », prévient Anthony Morlet-Lavidalie, économiste chez Rexecode

  • 2

    À Saint-Nazaire, la montée en cadence met la logistique des Chantiers de l’Atlantique sous tension

  • 3

    États-Unis : la croissance américaine révisée en nette hausse, l'inflation au plus haut depuis trois ans

  • 4

    « Touche pas à mon télétravail » : chez Airbus, la grogne monte face à un renforcement de la présence au bureau

  • 5

    Fissures dans les ailes des Airbus A380 : pourquoi elles deviennent plus vulnérables avec le temps

  • 6

    Une nouvelle génération de généraux

Régions

  • Auvergne-Rhône-Alpes
  • Bourgogne-Franche-Comté
  • Bretagne
  • Centre-Val de Loire
  • Corse
  • Grand Est
  • Hauts-de-France
  • Île-de-France
  • Normandie
  • Nouvelle-Aquitaine
  • Occitanie
  • Pays de la Loire
  • Provence-Alpes-Côte d'Azur

La Tribune +

  • Espace abonné
  • Kiosque numérique
  • Annonces légales
  • Déposer vos annonces légales

Services

  • Supplément
  • La Tribune now

Evénements

  • ACT50
  • Aéroforum
  • AIM
  • Bordeaux Solar Summit
  • Family & Business Forum
  • Forum Europe Afrique
  • Impacts Santé
  • Les Lauréates
  • Paris Air Forum
  • Sommet Aéronautique & Spatial de Bordeaux
  • Sommet Économique de la Corse
  • Tech For Future
  • World News Media Congress
  • Tous nos événements en régions

Pour gérer vos consentements,

Suivez-nous sur les réseaux sociaux

YouTube
LinkedIn
Facebook
Instagram
X

Application mobile

App Store
Google Play

  • Nous Contacter
  • Charte d'indépendance et de déontologie
  • Mentions Légales
  • CGU
  • CGU Pro
  • Gestion des cookies
  • Exercez vos droits
  • Politique de confidentialité

Droits de reproduction et de diffusion réservés @LaTribune

Partenaire digital de confiance - Certification de qualité
  • La Tribune
  • La Tribune Dimanche
  • La Tribune Afrique
  • Air&Cosmos
  • |
  • Événements
  • L'instant Sélection
Google icon
Ajouter La Tribune à vos sources préféréesAjouter La Tribune à vos sources préférées
OPINION. Pour réduire l'empreinte carbone des projets data, il est indispensable de mener en amont un travail de réflexion sur l'utilité des données utilisées et de structurer la data disponible en fonction des usages attendus. (*) Par Jonathan Petit, Responsable Data Science chez Avanade.

En physique, l'entropie correspond à l'état de désorganisation de la matière. La minimisation de l'entropie permet l'organisation des éléments la plus éloignée de l'aléatoire. Elle est devenue un enjeu majeur de notre temps, qui concerne directement l'organisation des activités humaines. Et si nous l'appliquions à nos projets data ? Voici quelques pistes concrètes.

Sortir du paradigme « plus de data = plus de valeur »

La tendance humaine à vouloir produire et surtout à stocker plus de denrées trouve son origine dans nos comportements ancestraux pour anticiper les pénuries. Il semblerait que cette tendance se vérifie particulièrement dans notre gestion des données ! Par précaution, notre habitude est de prélever et de stocker le maximum de données pour maximiser la probabilité de n'avoir « rien oublié » lorsqu'il s'agira de démarrer l'analyse et l'utilisation de celles-ci. Cependant, avant toute accumulation de données, la question pourrait être désormais : avons-nous besoin de toutes ces données et pour quels usages projetés ?

Autrement dit, si une donnée n'a pas d'utilité aujourd'hui, sa valeur est en réalité négative car elle génère d'ores et déjà une dépense énergétique du fait de sa récolte, de son stockage et de sa circulation.

La donnée est une connaissance

La donnée se transmet, se diffuse, se copie vers des destinations multiples sans pour autant disparaître de son origine. Ainsi, le fait de générer une donnée n'est qu'une preuve de son coût et du potentiel multiplicatif de celui-ci et non de sa valeur.

Toutefois, toute expérience repose sur des hypothèses. Pour vérifier celles-ci, la génération de données est donc incontournable. Inutile cependant d'en générer ou d'en traiter plus que nécessaire !

Vérifier et évaluer l'intérêt d'une donnée

Les questions liées à l'intérêt tangible d'une donnée sont nombreuses :

  • Quel objectif justifie la récolte et l'informatisation de cette donnée ?
  • A quel ensemble de phénomènes une donnée permet-elle de contribuer ?
  • Quelle donnée est la plus pertinente pour représenter au mieux un phénomène ?
  • Quelle donnée est rendue obsolète par la récolte d'une nouvelle donnée ?
Newsletter

Ma Tribune

L’actualité qui compte pour vous, chaque jour dans votre boîte mail.

Illustration de la newsletter Ma Tribune

Il convient donc de s'assurer de la pertinence d'une donnée et de sa capacité à représenter un phénomène de manière fidèle à celui-ci mais aussi de déterminer les échelles d'intérêts appropriées : à quelle fréquence, quel format, quelles transmissions, quelles duplications ou multiplications et enfin quelle infrastructure pour maximiser l'intérêt de cette donnée tout en minimisant son impact environnemental ?

Un volume de données « utiles » doit surtout être riche d'une diversité d'observations

Ce n'est pas parce que je dispose de beaucoup de données dans un champs précis que mes prévisions basées sur ces données seront meilleures. Pour atteindre des modèles plus performants, je vais avoir besoin de répétitions de situations (pour rendre mes conclusions significatives) mais également d'une diversité d'observations. Le trop plein d'informations sur une situation fixe induit notamment un phénomène de sur-apprentissage. Dans ce cas, la qualité de la prévision globale peut s'avérer diminuée par l'apport de données supplémentaires.

Répartir son « budget énergétique » selon la priorité des projets

Les coûts énergétiques liés au développement et à la mise en production d'algorithmes de machine learning peuvent s'avérer particulièrement consommateurs d'énergie. De la régression linéaire simple aux réseaux de neurones convolutifs, les besoins en ressources peuvent être facilement décuplés, ce qui n'est pas systématiquement souhaitable. Aussi, le choix de l'algorithme devra être considéré en fonction du gain de précision qu'il apporte, au regard des ressources nécessaires et en fonction du niveau de priorité du projet.

La modélisation s'avère parfois être la compensation d'un manque de connectivité entre systèmes d'information

Si tant de données sont enregistrées et traitées par les entreprises, ce n'est pas souvent dans un but de modélisation statistique mais bel et bien dans l'objectif d'un service personnalisé et directement connecté. La modélisation trouve son intérêt dans la généralisation d'un phénomène et ne doit pas être confondue avec la connexion directe de systèmes d'information.

Prenons un exemple simple. Le restaurant collectif d'un immeuble de bureau souhaite prévoir au mieux le nombre de convives à déjeuner le jour j et les assortiments de repas à prévoir. Il déballera et préparera le matin même le nombre et la variété des repas prévus en incluant une marge d'erreur dans l'objectif de pouvoir satisfaire l'ensemble des convives, y compris ceux dont les comportements sont les plus difficiles à anticiper. Pour y parvenir, le restaurant a deux options.                 

Option 1 : il peut développer un ou plusieurs modèles de prévision basés sur l'observation des repas historiques et des données corrélées à ces observations telles que la météo. Il peut également s'entendre avec les entreprises de l'immeuble pour récolter un certain nombre d'informations impactant le nombre et la typologie des convives (présence des salariés sur le lieu de travail, formations externes...) et ainsi améliorer la qualité de ses prévisions. 

Option 2 : il peut développer une application permettant aux salariés des entreprises présentes dans l'immeuble de communiquer à la fois leur venue et leurs choix, jusqu'au jour même.

Ainsi, la première option repose sur des modèles statistiques probabilistes dont la précision varie en fonction de la capacité à récupérer les données corrélées avec l'activité. C'est-à-dire la capacité à connecter différents systèmes d'informations entre eux (communication anonymisée des agendas électroniques des employés des différentes entreprises de l'immeuble).

La seconde option vient alimenter directement le système d'information du restaurant et garantit ainsi une optimisation de ses besoins tout en minimisant le gaspillage. La modélisation statistique peut alors trouver sa place dans la prévision de la consommation à plus long terme dans un objectif d'optimisation de ses stocks. Dans la réalité, il est encore rare de constater de telles connexions directes d'évaluation de l'offre directement par la demande. Les modèles statistiques viennent en quelque sorte pallier ce manque d'outils déclaratifs ou de connexions entre systèmes d'informations.

La structuration de la data doit être drivée par les usages

Lorsqu'une donnée est utilisée à objectif d'analyse ou de modélisation, elle est au préalable étudiée, nettoyée et surtout préparée afin de pouvoir communiquer avec d'autres données. L'exemple le plus courant de préparation est la mise à la même échelle de temps d'un ensemble de données. Ce n'est qu'alors que ces données peuvent « communiquer » et que nous pouvons déduire une relation entre ces variables ou ces phénomènes. 

Or, sur de multiples projets, les mêmes sources de données sont préparées en fonction des autres sources et de leur granularité respective. Ainsi, il n'est pas rare de trouver dans un même lac de données, la répétition des étapes mentionnées ci-dessus sur une même source de données. Dans les faits, davantage de travaux peuvent être mutualisés et nous pourrions éviter la redondance de certaines transformations et stockages.            

Les clés pour éviter cette redondance reposent sur :

  • Un partage des pipelines :cycles visuels de chargements, de préparation et de transformations de données liées à un projet permettant la réutilisation de tout ou partie de ceux-ci.
  • Un accès intelligent aux éléments de documentation(intelligent search) et de visualisation des projets.
  • Une analyse des interactions entre projetsmenée en continue.

S'ils sont bien utilisés, les nouveaux outils de design de pipelines et de construction et de suivi de projets de type DataOps et MLOps permettent de répondre au moins en partie à ces objectifs.

Échantillonnage et sondage de données : quel volume pour quoi faire ?

Pour chaque analyse lancée ou chaque exercice de modélisation, il convient de se demander quel volume de données est nécessaire pour établir une approximation suffisante de ce que l'on souhaite démontrer. Pour prendre une décision, nous n'avons que très rarement besoin d'une analyse précise à la décimale près. Selon les scénarios, parfois 10 % des données suffisent à établir le constat souhaité et à suivre les évolutions d'un phénomène. 

Les techniques de sondages appliquées aux populations peuvent être appliquées aux données : tirages aléatoires simples, stratifiés ou en grappes. Selon les cas, une méthode peut être utilisée afin d'estimer un résultat en fonction du niveau de précision souhaité.

A la différence des sondages politiques, les techniques de sondages appliquées aux données permettent non pas d'économiser le coût lié à la récolte de ces données mais d'économiser une partie des ressources liées à leur traitement. Tout comme dans le cas des sondages classiques, le niveau de précision souhaité détermine le taux de sondage nécessaire pour y parvenir et un intervalle de confiance (ou marge d'erreur) est indiqué.

Prenons l'exemple de la latence des tableaux de bords. Étant donné le volume de données désormais à disposition pour quantité de projets, il n'est pas rare de voir des tableaux de bord qui « rament » au chargement. Parfois, l'erreur est de vouloir y connecter un volume trop important de données (agrégées ou non) et l'on cherche donc la solution côté infrastructure, mobilisant de nouvelles ressources informatiques, alors qu'une sous-partie de ces données sélectionnées intelligemment suffirait à régler ce problème de latence, à iso-ressources.

L'utilité marginale de la donnée

La quantité de précisions apportées par une unité supplémentaire d'information correspond à l'utilité marginale de la donnée. Le gain peut être évalué en regard de l'énergie incrémentale nécessaire pour son traitement. Pour chaque scénario, il existe un seuil à partir duquel l'apport en précision d'une donnée supplémentaire est nul, proche de 0, ou même négatif. Il n'y a alors plus d'intérêt à récolter ou utiliser cette donnée.       

Il existe plusieurs scénarios d'application de cet indicateur afin d'arbitrer sur l'utilisation de données supplémentaires :

  • Au niveau de la granularité de production et de transmission d'une information :supposons par exemple un système IoT qui produit et transmet une information de température toutes les secondes alors que l'utilisation faite de cette température n'est établie qu'au niveau de la minute.
  • Au niveau de l'obsolescence :est-ce que l'utilisation d'une donnée historique supplémentaire plus éloignée améliore ou dégrade la qualité de ma prévision ? On parle alors de prédictibilité marginale négative de la donnée.
  • Au niveau du volume de donnéesestimé nécessaire en fonction du niveau de précision souhaité (voir paragraphe précédent sur l'échantillonnage et le sondage).

Ainsi, la production, la transmission et l'utilisation d'une donnée doit toujours être calibrée en regard d'un objectif, d'un besoin et du niveau de précision souhaité.

Conclusion : la nécessité des approches frugales

À lire également

  • L’open data, le meilleur allié des acteurs locaux
  • Datacenters : le Français Data4 lève 650 millions d'euros pour devenir un champion européen
  • Les datacentres, un observatoire de la souveraineté des données
  • Prix 10.000 startups 2020 : découvrez les finalistes dans la catégorie "Data & IA"
  • La licorne Dataiku confirme son ancrage américain en levant 100 millions de dollars

La montée en puissance du Big Data crée parfois des environnements dont la complexité et la multiplicité limitent la maîtrise de la structuration et de l'utilisation des données. Les ressources matérielles et énergétiques sous-jacentes sont souvent très importantes. Etant donné les volumes de données à disposition, il est primordial de développer des techniques de minimisation des coûts énergétiques liés à l'implémentation de ces projets. D'autant que les résultats de ces recherches aboutissent à la mise en place de nouveaux services qui se diffusent très rapidement et en masse.                

La modélisation statistique dont nous parlons beaucoup de manière indirecte aujourd'hui lorsque nous évoquons l'intelligence artificielle ou la Data Science est avant tout un ensemble de méthodes d'approximations. Prenons l'exemple des prévisions météo. On ne peut qu'estimer une situation météorologique future et non pas la prévoir avec exactitude. Le volume de données pour parvenir à une estimation est certes important mais au-delà d'un certain seuil, le gain apporté par une donnée supplémentaire devient décroissant. Il faut donc des approches frugales pour ne pas générer plus de données que nécessaire.              

Au-delà de la documentation classique, les nouveaux outils permettant de bâtir et de partager les pipelines de projets devraient permettre un meilleur partage des transformations de données déjà établies dans les systèmes d'information et d'éviter les redondances liées par exemple à la préparation de ces données.

Jonathan Petit (*)

Sur le même sujet

Ninon Gauthier

OPINION. « L'IA accélère le travail, mais à quel prix pour la santé mentale ? »

En 2026, 59 % des salariés utilisent l'IA générative, et près des deux tiers y recourent régulièrement. Si ces outils promettent des gains de productivité, ils accélèrent aussi le rythme du travail et font émerger de nouvelles formes de pression.

Idées & Débats
Olivier Koch

OPINION. « L’après-ZFE : de l’interdiction à l’innovation ? »

Le maintien in extremis des Zones à Faibles Émissions (ZFE) par le Conseil constitutionnel ne doit pas faire illusion. Si l'abrogation du dispositif vient d'être censurée pour des raisons de procédure dans la loi de simplification de la vie économique, son rejet politique et social, lui, est acté.

Idées & Débats
Philippe Naccache et Julien Pillot

OPINION. « Face à un pacte républicain qui se fissure, l’urgence d’arbitrages courageux »

Les Français aiment leurs services publics mais dénoncent leurs dysfonctionnements. Entre promesses non tenues et responsabilités éludées, l'exaspération monte.

Idées & Débats
Ludovic Haye et Sylvain D’Hoine

OPINION. « Espace : réguler ne suffit pas »

Chaque jour, vous interagissez avec des dizaines de satellites — pour vous repérer, payer, vous informer. L'espace est devenu une infrastructure vitale, et l'Europe le reconnaît enfin avec l'EU Space Act. Mais un texte ne surveille pas les orbites, ne détecte pas les débris, n'alerte pas les opérateurs.

Idées & Débats
Sébastien Boussois

OPINION. « Trump ou le réveil économique de l'Europe : le miroir de nos faiblesses »

Depuis deux ans, les Européens passent leur temps à commenter Donald Trump, à dénoncer ses excès, ses provocations et ses décisions. Pourtant, le véritable sujet n'est peut-être pas Trump en soi. Le véritable sujet, c'est nous.

Idées & Débats
Mathieu Wallich-Petit

OPINION. « Souveraineté numérique : l’avantage compétitif d’une approche pragmatique »

Pourquoi la résilience numérique n’est pas une fin en soi mais le moyen concret d’exercer sa souveraineté dans un monde interdépendant

Idées & Débats
Véronique Chabourine

OPINION. « Palantir : réduire une dépendance ou équilibrer une interdépendance ?  »

Le 16 juin 2026, entre VivaTech et Eurosatory, deux rendez-vous majeurs consacrés à l’innovation et à la défense, le premier ministre Sébastien Lecornu a annoncé que la DGSI remplacera progressivement Palantir par la société française ChapsVision. Depuis près de dix ans, les services français de renseignement s’appuyaient sur le groupe américain pour l’analyse et l’exploitation de données massives.

Idées & Débats
Hamid Enayat

OPINION. « Iran : les sanctions tombent, mais la crise demeure »

Derrière les promesses de reconstruction et de croissance, la République islamique reste confrontée à une triple crise : économique, politique et sociale.

Idées & Débats