Comment réduire l'impact environnemental des projets data ?

Jonathan Petit (*)

Publié le 25 août 2021 à 05:22

Ajouter La Tribune à vos sources préférées

OPINION. Pour réduire l'empreinte carbone des projets data, il est indispensable de mener en amont un travail de réflexion sur l'utilité des données utilisées et de structurer la data disponible en fonction des usages attendus. (*) Par Jonathan Petit, Responsable Data Science chez Avanade.

En physique, l'entropie correspond à l'état de désorganisation de la matière. La minimisation de l'entropie permet l'organisation des éléments la plus éloignée de l'aléatoire. Elle est devenue un enjeu majeur de notre temps, qui concerne directement l'organisation des activités humaines. Et si nous l'appliquions à nos projets data ? Voici quelques pistes concrètes.

Sortir du paradigme « plus de data = plus de valeur »

La tendance humaine à vouloir produire et surtout à stocker plus de denrées trouve son origine dans nos comportements ancestraux pour anticiper les pénuries. Il semblerait que cette tendance se vérifie particulièrement dans notre gestion des données ! Par précaution, notre habitude est de prélever et de stocker le maximum de données pour maximiser la probabilité de n'avoir « rien oublié » lorsqu'il s'agira de démarrer l'analyse et l'utilisation de celles-ci. Cependant, avant toute accumulation de données, la question pourrait être désormais : avons-nous besoin de toutes ces données et pour quels usages projetés ?

Autrement dit, si une donnée n'a pas d'utilité aujourd'hui, sa valeur est en réalité négative car elle génère d'ores et déjà une dépense énergétique du fait de sa récolte, de son stockage et de sa circulation.

La donnée est une connaissance

La donnée se transmet, se diffuse, se copie vers des destinations multiples sans pour autant disparaître de son origine. Ainsi, le fait de générer une donnée n'est qu'une preuve de son coût et du potentiel multiplicatif de celui-ci et non de sa valeur.

Toutefois, toute expérience repose sur des hypothèses. Pour vérifier celles-ci, la génération de données est donc incontournable. Inutile cependant d'en générer ou d'en traiter plus que nécessaire !

Vérifier et évaluer l'intérêt d'une donnée

Les questions liées à l'intérêt tangible d'une donnée sont nombreuses :

Quel objectif justifie la récolte et l'informatisation de cette donnée ?
A quel ensemble de phénomènes une donnée permet-elle de contribuer ?
Quelle donnée est la plus pertinente pour représenter au mieux un phénomène ?
Quelle donnée est rendue obsolète par la récolte d'une nouvelle donnée ?

Newsletter

Ma Tribune

L’actualité qui compte pour vous, chaque jour dans votre boîte mail.

Il convient donc de s'assurer de la pertinence d'une donnée et de sa capacité à représenter un phénomène de manière fidèle à celui-ci mais aussi de déterminer les échelles d'intérêts appropriées : à quelle fréquence, quel format, quelles transmissions, quelles duplications ou multiplications et enfin quelle infrastructure pour maximiser l'intérêt de cette donnée tout en minimisant son impact environnemental ?

Un volume de données « utiles » doit surtout être riche d'une diversité d'observations

Ce n'est pas parce que je dispose de beaucoup de données dans un champs précis que mes prévisions basées sur ces données seront meilleures. Pour atteindre des modèles plus performants, je vais avoir besoin de répétitions de situations (pour rendre mes conclusions significatives) mais également d'une diversité d'observations. Le trop plein d'informations sur une situation fixe induit notamment un phénomène de sur-apprentissage. Dans ce cas, la qualité de la prévision globale peut s'avérer diminuée par l'apport de données supplémentaires.

Répartir son « budget énergétique » selon la priorité des projets

Les coûts énergétiques liés au développement et à la mise en production d'algorithmes de machine learning peuvent s'avérer particulièrement consommateurs d'énergie. De la régression linéaire simple aux réseaux de neurones convolutifs, les besoins en ressources peuvent être facilement décuplés, ce qui n'est pas systématiquement souhaitable. Aussi, le choix de l'algorithme devra être considéré en fonction du gain de précision qu'il apporte, au regard des ressources nécessaires et en fonction du niveau de priorité du projet.

La modélisation s'avère parfois être la compensation d'un manque de connectivité entre systèmes d'information

Si tant de données sont enregistrées et traitées par les entreprises, ce n'est pas souvent dans un but de modélisation statistique mais bel et bien dans l'objectif d'un service personnalisé et directement connecté. La modélisation trouve son intérêt dans la généralisation d'un phénomène et ne doit pas être confondue avec la connexion directe de systèmes d'information.

Prenons un exemple simple. Le restaurant collectif d'un immeuble de bureau souhaite prévoir au mieux le nombre de convives à déjeuner le jour j et les assortiments de repas à prévoir. Il déballera et préparera le matin même le nombre et la variété des repas prévus en incluant une marge d'erreur dans l'objectif de pouvoir satisfaire l'ensemble des convives, y compris ceux dont les comportements sont les plus difficiles à anticiper. Pour y parvenir, le restaurant a deux options.

Option 1 : il peut développer un ou plusieurs modèles de prévision basés sur l'observation des repas historiques et des données corrélées à ces observations telles que la météo. Il peut également s'entendre avec les entreprises de l'immeuble pour récolter un certain nombre d'informations impactant le nombre et la typologie des convives (présence des salariés sur le lieu de travail, formations externes...) et ainsi améliorer la qualité de ses prévisions.

Option 2 : il peut développer une application permettant aux salariés des entreprises présentes dans l'immeuble de communiquer à la fois leur venue et leurs choix, jusqu'au jour même.

Ainsi, la première option repose sur des modèles statistiques probabilistes dont la précision varie en fonction de la capacité à récupérer les données corrélées avec l'activité. C'est-à-dire la capacité à connecter différents systèmes d'informations entre eux (communication anonymisée des agendas électroniques des employés des différentes entreprises de l'immeuble).

La seconde option vient alimenter directement le système d'information du restaurant et garantit ainsi une optimisation de ses besoins tout en minimisant le gaspillage. La modélisation statistique peut alors trouver sa place dans la prévision de la consommation à plus long terme dans un objectif d'optimisation de ses stocks. Dans la réalité, il est encore rare de constater de telles connexions directes d'évaluation de l'offre directement par la demande. Les modèles statistiques viennent en quelque sorte pallier ce manque d'outils déclaratifs ou de connexions entre systèmes d'informations.

La structuration de la data doit être drivée par les usages

Lorsqu'une donnée est utilisée à objectif d'analyse ou de modélisation, elle est au préalable étudiée, nettoyée et surtout préparée afin de pouvoir communiquer avec d'autres données. L'exemple le plus courant de préparation est la mise à la même échelle de temps d'un ensemble de données. Ce n'est qu'alors que ces données peuvent « communiquer » et que nous pouvons déduire une relation entre ces variables ou ces phénomènes.

Or, sur de multiples projets, les mêmes sources de données sont préparées en fonction des autres sources et de leur granularité respective. Ainsi, il n'est pas rare de trouver dans un même lac de données, la répétition des étapes mentionnées ci-dessus sur une même source de données. Dans les faits, davantage de travaux peuvent être mutualisés et nous pourrions éviter la redondance de certaines transformations et stockages.

Les clés pour éviter cette redondance reposent sur :

Un partage des pipelines :cycles visuels de chargements, de préparation et de transformations de données liées à un projet permettant la réutilisation de tout ou partie de ceux-ci.
Un accès intelligent aux éléments de documentation(intelligent search) et de visualisation des projets.
Une analyse des interactions entre projetsmenée en continue.

S'ils sont bien utilisés, les nouveaux outils de design de pipelines et de construction et de suivi de projets de type DataOps et MLOps permettent de répondre au moins en partie à ces objectifs.

Échantillonnage et sondage de données : quel volume pour quoi faire ?

Pour chaque analyse lancée ou chaque exercice de modélisation, il convient de se demander quel volume de données est nécessaire pour établir une approximation suffisante de ce que l'on souhaite démontrer. Pour prendre une décision, nous n'avons que très rarement besoin d'une analyse précise à la décimale près. Selon les scénarios, parfois 10 % des données suffisent à établir le constat souhaité et à suivre les évolutions d'un phénomène.

Les techniques de sondages appliquées aux populations peuvent être appliquées aux données : tirages aléatoires simples, stratifiés ou en grappes. Selon les cas, une méthode peut être utilisée afin d'estimer un résultat en fonction du niveau de précision souhaité.

A la différence des sondages politiques, les techniques de sondages appliquées aux données permettent non pas d'économiser le coût lié à la récolte de ces données mais d'économiser une partie des ressources liées à leur traitement. Tout comme dans le cas des sondages classiques, le niveau de précision souhaité détermine le taux de sondage nécessaire pour y parvenir et un intervalle de confiance (ou marge d'erreur) est indiqué.

Prenons l'exemple de la latence des tableaux de bords. Étant donné le volume de données désormais à disposition pour quantité de projets, il n'est pas rare de voir des tableaux de bord qui « rament » au chargement. Parfois, l'erreur est de vouloir y connecter un volume trop important de données (agrégées ou non) et l'on cherche donc la solution côté infrastructure, mobilisant de nouvelles ressources informatiques, alors qu'une sous-partie de ces données sélectionnées intelligemment suffirait à régler ce problème de latence, à iso-ressources.

L'utilité marginale de la donnée

La quantité de précisions apportées par une unité supplémentaire d'information correspond à l'utilité marginale de la donnée. Le gain peut être évalué en regard de l'énergie incrémentale nécessaire pour son traitement. Pour chaque scénario, il existe un seuil à partir duquel l'apport en précision d'une donnée supplémentaire est nul, proche de 0, ou même négatif. Il n'y a alors plus d'intérêt à récolter ou utiliser cette donnée.

Il existe plusieurs scénarios d'application de cet indicateur afin d'arbitrer sur l'utilisation de données supplémentaires :

Au niveau de la granularité de production et de transmission d'une information :supposons par exemple un système IoT qui produit et transmet une information de température toutes les secondes alors que l'utilisation faite de cette température n'est établie qu'au niveau de la minute.
Au niveau de l'obsolescence :est-ce que l'utilisation d'une donnée historique supplémentaire plus éloignée améliore ou dégrade la qualité de ma prévision ? On parle alors de prédictibilité marginale négative de la donnée.
Au niveau du volume de donnéesestimé nécessaire en fonction du niveau de précision souhaité (voir paragraphe précédent sur l'échantillonnage et le sondage).

Ainsi, la production, la transmission et l'utilisation d'une donnée doit toujours être calibrée en regard d'un objectif, d'un besoin et du niveau de précision souhaité.

Conclusion : la nécessité des approches frugales

OPINION. « L'IA accélère le travail, mais à quel prix pour la santé mentale ? »

En 2026, 59 % des salariés utilisent l'IA générative, et près des deux tiers y recourent régulièrement. Si ces outils promettent des gains de productivité, ils accélèrent aussi le rythme du travail et font émerger de nouvelles formes de pression.

Idées & Débats

OPINION. « L’après-ZFE : de l’interdiction à l’innovation ? »

Le maintien in extremis des Zones à Faibles Émissions (ZFE) par le Conseil constitutionnel ne doit pas faire illusion. Si l'abrogation du dispositif vient d'être censurée pour des raisons de procédure dans la loi de simplification de la vie économique, son rejet politique et social, lui, est acté.

Idées & Débats

OPINION. « Face à un pacte républicain qui se fissure, l’urgence d’arbitrages courageux »

Les Français aiment leurs services publics mais dénoncent leurs dysfonctionnements. Entre promesses non tenues et responsabilités éludées, l'exaspération monte.

Idées & Débats

OPINION. « Espace : réguler ne suffit pas »

Chaque jour, vous interagissez avec des dizaines de satellites — pour vous repérer, payer, vous informer. L'espace est devenu une infrastructure vitale, et l'Europe le reconnaît enfin avec l'EU Space Act. Mais un texte ne surveille pas les orbites, ne détecte pas les débris, n'alerte pas les opérateurs.

Idées & Débats

OPINION. « Trump ou le réveil économique de l'Europe : le miroir de nos faiblesses »

Depuis deux ans, les Européens passent leur temps à commenter Donald Trump, à dénoncer ses excès, ses provocations et ses décisions. Pourtant, le véritable sujet n'est peut-être pas Trump en soi. Le véritable sujet, c'est nous.

Idées & Débats

OPINION. « Souveraineté numérique : l’avantage compétitif d’une approche pragmatique »

Pourquoi la résilience numérique n’est pas une ﬁn en soi mais le moyen concret d’exercer sa souveraineté dans un monde interdépendant

Idées & Débats

OPINION. « Palantir : réduire une dépendance ou équilibrer une interdépendance ? »

Le 16 juin 2026, entre VivaTech et Eurosatory, deux rendez-vous majeurs consacrés à l’innovation et à la défense, le premier ministre Sébastien Lecornu a annoncé que la DGSI remplacera progressivement Palantir par la société française ChapsVision. Depuis près de dix ans, les services français de renseignement s’appuyaient sur le groupe américain pour l’analyse et l’exploitation de données massives.

Idées & Débats

OPINION. « Iran : les sanctions tombent, mais la crise demeure »

Derrière les promesses de reconstruction et de croissance, la République islamique reste confrontée à une triple crise : économique, politique et sociale.

Idées & Débats

OPINION. « L’après-ZFE : de l’interdiction à l’innovation ? »

OPINION. « Espace : réguler ne suffit pas »

OPINION. « Palantir : réduire une dépendance ou équilibrer une interdépendance ? »

Comment réduire l'impact environnemental des projets data ?

Sortir du paradigme « plus de data = plus de valeur »

La donnée est une connaissance

Vérifier et évaluer l'intérêt d'une donnée

Ma Tribune

Un volume de données « utiles » doit surtout être riche d'une diversité d'observations

Répartir son « budget énergétique » selon la priorité des projets

La modélisation s'avère parfois être la compensation d'un manque de connectivité entre systèmes d'information

La structuration de la data doit être drivée par les usages

Échantillonnage et sondage de données : quel volume pour quoi faire ?

L'utilité marginale de la donnée

Conclusion : la nécessité des approches frugales

Sur le même sujet

OPINION. « L'IA accélère le travail, mais à quel prix pour la santé mentale ? »

OPINION. « L’après-ZFE : de l’interdiction à l’innovation ? »

OPINION. « Face à un pacte républicain qui se fissure, l’urgence d’arbitrages courageux »

OPINION. « Espace : réguler ne suffit pas »

OPINION. « Trump ou le réveil économique de l'Europe : le miroir de nos faiblesses »

OPINION. « Souveraineté numérique : l’avantage compétitif d’une approche pragmatique »

OPINION. « Palantir : réduire une dépendance ou équilibrer une interdépendance ? »

OPINION. « Iran : les sanctions tombent, mais la crise demeure »

Sortir du paradigme « plus de data = plus de valeur »

La donnée est une connaissance

Vérifier et évaluer l'intérêt d'une donnée

Ma Tribune

Un volume de données « utiles » doit surtout être riche d'une diversité d'observations

Répartir son « budget énergétique » selon la priorité des projets

La modélisation s'avère parfois être la compensation d'un manque de connectivité entre systèmes d'information

La structuration de la data doit être drivée par les usages

Échantillonnage et sondage de données : quel volume pour quoi faire ?

L'utilité marginale de la donnée

Conclusion : la nécessité des approches frugales

Sur le même sujet

OPINION. « L'IA accélère le travail, mais à quel prix pour la santé mentale ? »

OPINION. « L’après-ZFE : de l’interdiction à l’innovation ? »

OPINION. « Face à un pacte républicain qui se fissure, l’urgence d’arbitrages courageux »

OPINION. « Espace : réguler ne suffit pas »

OPINION. « Trump ou le réveil économique de l'Europe : le miroir de nos faiblesses »

OPINION. « Souveraineté numérique : l’avantage compétitif d’une approche pragmatique »

OPINION. « Palantir : réduire une dépendance ou équilibrer une interdépendance ? »

OPINION. « Iran : les sanctions tombent, mais la crise demeure »