Calcul haute performance et ordinateurs superpuissants : la course à l’« exascale »

DECRYPTAGE. Cette année, les supercalculateurs ont franchi un cap – réaliser un milliard de milliards d’opérations par seconde. Pourquoi et comment en sont-ils arrivés là ? Par Denis Trystram, Université Grenoble Alpes (UGA)
(Crédits : DR)

Le 27 mai 2022, la communauté HPC (high performance computing) annonce en grande pompe l'arrivée du premier supercalculateur « exascale », c'est-à-dire capable de réaliser 1018 « FLOPS », soit un milliard de milliards d'opérations par seconde (sur des nombres réels en notation flottante, pour être précis).

Le nouveau supercalculateur, Frontier, qui est opéré par le département américain à l'énergie au Oak Ridge National Laboratory dans le Tennessee avec plusieurs millions de cœurs supplante le supercalculateur japonais Fugaku qui rétrograde à la seconde position du classement TOP500 des machines les plus puissantes.

Frontier, non content d'être (pour l'instant) l'ordinateur le plus puissant du monde, est également bien classé en termes d'efficacité énergétique... du moins par rapport à sa puissance car il consomme d'énormes quantités d'énergie, l'équivalent d'une ville de plusieurs dizaines de milliers d'habitants. Et le problème ne s'arrête pas à Frontier, puisqu'il n'est que le navire amiral de la florissante flotte mondiale de plusieurs milliers de supercalculateurs.

Un affrontement à distance

Ce retour des Américains en tête de la course met en lumière un nouveau terrain d'affrontement entre les superpuissances étatsunienne et chinoise, que les Européens observent en embuscade. En effet, la Chine avait créé la surprise en 2017 en ravissant la première place aux États-Unis : on assistait alors à une arrivée en masse avec plus de 200 supercalculateurs chinois dans le TOP500. Aujourd'hui, la première machine chinoise est reléguée à la sixième place et les Chinois ont choisi de faire sortir leurs machines de ce classement.

En 2008, le supercalculateur Roadrunner du Los Alamos National Lab américain est le premier à atteindre le « PetaFlops », soit un million de milliards de FLOPS (1015). L'exascale devient un objectif stratégique pour les Américains, alors même que ce but semble techniquement inatteignable.

Pour parvenir à l'exascale, il a fallu repenser l'architecture de la génération PetaFlops précédente. Par exemple, à ces échelles extrêmes, la question de la fiabilité des millions de composants devient cruciale. Comme un grain de sable bloque un engrenage, la faillite d'un élément empêche la machine complète de fonctionner.

Le « mur de l'énergie »

Mais le département de l'énergie américain (US DoE) a ajouté une contrainte à ce développement technologique en imposant une puissance maximale de 20 Mégawatts pour déployer l'exascale - contrainte appelée « mur de l'énergie ». L'initiative américaine Exascale computing a été financée à plus d'un milliard de dollars en 2016.

Pour passer ce « mur de l'énergie », il a fallu repenser l'ensemble des couches logicielles (du système d'exploitation aux applications) et concevoir de nouveaux algorithmes pour gérer les ressources de calcul hétérogènes, c'est-à-dire les processeurs standard et accélérateurs, les hiérarchies mémoire, les interconnexions notamment.

Au final, la consommation électrique de Frontier est mesurée à 21,1 Mégawatts, soit 52,23 Gigaflops par Watt, ce qui correspond en gros à 150 tonnes d'émissions de CO2 par jour en tenant compte du mix énergétique du Tennessee, lieu d'implantation de la plate-forme. C'est juste en dessous de la limite du mur des 20 Mégawatts fixé dans l'objectif de la DoE (si l'on ramène les 21,1 Mégawatts du 1,102 exaflop de Frontier, on arrive à 19,15 Mégawatts).

Ceci place Frontier au second rang du Top Green500 des supercalculateurs qui consomment le moins d'opérations (Flops) par Watt - ce classement a été lancé en 2013 et note la naissance des préoccupations de la communauté pour les questions énergétiques. Cette place au Top Green500 est une bonne nouvelle : le gain en performance de Frontier s'accompagne également d'un gain en consommation énergétique.

Des estimations trop optimistes

Mais ces estimations de consommation énergétique du numérique sont sous-estimées, comme souvent en la matière : elles ne tiennent compte que de l'usage et négligent la part importante de la fabrication du supercalculateur et des infrastructures associées comme les bâtiments, et de son futur démantèlement. Mon expérience de recherche et celles de mes collègues académiques et industriels nous permettent d'estimer que l'usage ne représente environ que la moitié du coût énergétique total, pris sur une durée de vie moyenne de 5 ans. Il y a peu d'études en la matière, à cause de la difficulté systémique de la chose et de la faible disponibilité des données, mais citons l'étude récente de mesure de la consommation d'une heure d'un cœur de la plate-forme de calcul Dahu qui conclut à une proportion des coûts d'usage d'à peine 30 % au regard du coût énergétique complet.

De plus, les améliorations technologiques qui permettent des économies d'énergie engendrent un surplus global de consommation : c'est ce que l'on appelle l'« effet rebond ». De nouvelles fonctionnalités et un accroissement de l'utilisation résultent au final en une consommation d'énergie accrue. Un exemple récent en informatique est celui des modèles de langage naturel (NLP, pour Natural Language Processing), qui s'enrichissent de nouvelles fonctionnalités à mesure que la performance de calcul augmente lien.

L'arbre qui cache la forêt

Les progrès technologiques pour atteindre l'exascale sont incontestables, mais la contrepartie directe et indirecte qui pèse sur le réchauffement climatique reste importante, quoiqu'en disent les optimistes qui considèrent que c'est une goutte d'eau face aux 40 milliards de tonnes de CO2 émis chaque année par l'ensemble des activités humaines.

De plus, il ne s'agit pas que d'un seul supercalculateur : Frontier est l'arbre qui cache la forêt. En effet, on observe depuis longtemps dans la communauté que les progrès obtenus en construisant une nouvelle génération de calcul haute performance diffusent rapidement : de nouvelles plates-formes viennent très vite remplacer les plates-formes déjà déployées dans les centres de calcul universitaires ou dans les entreprises. Si le remplacement est prématuré, la durée de vie effective des machines remplacées est réduite, et leur impact environnemental augmente.

Le TOP500 ne représente qu'une partie de la galaxie des plates-formes HPC déployées dans le monde. Il est très difficile d'en estimer le nombre car beaucoup de plates-formes sortent du radar : un grand nombre de plates-formes à large échelle sont dans des entreprises privées et beaucoup de plates-formes à moindre échelle sont déployées localement.

Une petite étude faite directement sur les données du TOP500 montre que la performance effective de la plate-forme la plus puissante a été multipliée dans les dix dernières années par 33 (la performance moyenne des 500 machines ne progresse que d'un facteur 20). Sur la même période, le gain énergétique du TOP Green500 a été multiplié à peine par 15 (et 18 sur la moyenne). Le bilan global en termes d'énergie consommée est donc négatif - elle a, au final, augmenté.

Que faire de ces progrès ?

Un contre-argument peut être avancé : les progrès vers des plates-formes de plus en plus puissantes pourraient permettre de trouver des solutions techniques pour lutter contre le changement climatique. Cette manière de penser est représentative de l'état d'esprit de notre société technocentrée, mais il est malheureusement quasiment impossible de mesurer l'impact de ces nouvelles technologies sur la réduction du bilan carbone. En effet, la plupart du temps, ces mesures se concentrent sur les phases d'usage et ignorent les « à-cotés », comme la fabrication des nouveaux équipements par exemple.

On peut légitimement se demander quel mécanisme anime cette course à la performance. Une raison invoquée par les concepteurs de Frontier est le progrès scientifique : plus les phénomènes que l'on cherche à modéliser et comprendre se complexifient, plus on a besoin de simulations et la seule façon de mener de simulations est de construire des plates-formes HPC toujours plus puissantes... »

_______

Par Denis Trystram, Professeur des universités en informatique, Université Grenoble Alpes (UGA)

 La version originale de cet article a été publiée sur The Conversation.

Sujets les + lus

|

Sujets les + commentés

Commentaire 0

Votre email ne sera pas affiché publiquement.
Tous les champs sont obligatoires.

Il n'y a actuellement aucun commentaire concernant cet article.
Soyez le premier à donner votre avis !

-

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.