La voie du zettascale, partie 2 – Ouverture, énergie, sécurité, les nouveaux défis des supercalculateurs

Où s’arrêtera la course à la performance ? Surement pas à l’exascale. Le monde du calcul intensif a déjà le regard tourné vers l’avenir : le zettascale ! Voyons aujourd’hui les défis à relever pour y parvenir. This is the way !
En partenariat avec 

Cela prendra du temps, mais nous sommes d’ores et déjà sur la voie du zettascale. Et ce temps, nous le mettrons à profit pour aider nos clients à relever les défis qui s’annoncent ! Pour délivrer une telle puissance de calcul et permettre aux organisations d’exploiter les quantités massives de données générées, les supercalculateurs vont évidemment devoir s’appuyer des unités de calcul toujours plus puissantes, mais également faciliter l’utilisation, être à la hauteur des enjeux climatiques et protéger les résultats critiques d’une menace cyber de plus en plus prégnante.

Une architecture ouverte…

On pense spontanément aux CPU/GPU lorsqu’on évoque les supercalculateurs. Mais ces systèmes sont également basés sur une intelligence logicielle avancée. Les utilisateurs ont en effet besoin d’un logiciel mathématique qui va être capable d’exploiter la donnée pour en tirer les informations attendues. Dans le monde de la climatologie par exemple, Météo France utilise un modèle baptisé AROME. Les mathématiciens connaissent également MATLAB ou Mathematica. Pour alimenter ce logiciel de traitement, le supercalculateur a également besoin d’un framework technologique qui va permettre aux développeurs de créer un pipeline de données, entre les différents nœuds. Mais il faut également par exemple un système de fichiers parallèle, une bibliothèque numérique, un ordonnanceur, un planificateur de lots, etc.

Enfin, un supercalculateur, ce sont évidemment des processeurs, de la mémoire, des co-processeurs, des GPU, etc., regroupés en nœuds de calcul qui vont être chargés de paralléliser les tâches. Il existe pour cela différentes méthodes : nœuds homogènes ou hétérogènes, mémoire partagée ou distribuée, multiprocesseur symétrique (SMP) ou traitement massivement parallèle (MMP), etc. Une architecture sera définie en fonction du besoin puis tous ces nœuds seront interconnectés avec un réseau à faible latence, le plus souvent InfiniBand.

L’ensemble de ces éléments doit travailler de concert, pour décomposer le calcul en sous-tâches et les distribuer dans les différents nœuds. Les organisations ont donc besoin de conserver autant d’ouverture que possible pour permettre aux différentes briques de communiquer entre elles, de garantir l’évolutivité du système et d’assurer la souveraineté de l’utilisateur en évitant tout enfermement dans un système propriétaire. Avec oneAPI, Intel® propose par exemple aujourd’hui une API unifiée pour simplifier la portabilité et la scalabilité du code sur différents systèmes.

Un des moyens pour limiter le coût d’un supercalculateur est de permettre à des utilisateurs externes de l’utiliser, moyennant finance.

… dans une solution packagée

Dans le même temps, les organisations cherchent également à s’épargner un maximum de complexité en travaillant avec des solutions qui garantissent l’interopérabilité des composants. Chez Dell, nous proposons toutes les briques pour construire une infrastructure qui soit à la fois ouverte et packagée. Nous avons récemment annoncé de nouvelles conceptions validées pour l’IA pour aider les entreprises à mettre l’intelligence artificielle au service de leur business.

Sur un tel système, les retombées économiques peuvent être considérables en cas de problème. Dans ce package technologique, nous cherchons à améliorer la stabilité et la disponibilité des systèmes HPC. Nous amenons donc des solutions sur la prédictibilité des défaillances, la tolérance aux pannes et la résilience des calculs. Que ce soit au niveau de l’alimentation, des nœuds ou de l’environnement logiciel, nous intégrons des systèmes de contrôle et de la redondance matérielle pour se prémunir des interruptions.

Comment protéger les super-data ?

On l’a dit, un supercalculateur coûte cher. Un des moyens pour limiter les coûts est de permettre à des utilisateurs externes de l’utiliser, moyennant finance. Problème, cette ouverture constitue également un risque pour la sécurité du système. La sauvegarde et l’immuabilité des données sont donc également des enjeux importants pour les supercalculateurs et des défis complexes à résoudre. Le supercalculateur va générer des millions de petits fichiers, qui se chiffrent vite en « PB » qui sont difficiles à sauvegarder. D’autant que le processus de sauvegarde ne doit en aucun cas nuire à la performance ! Une des stratégies ici peut être de combiner pour la production du stockage chaud de type Dell PowerScale très performant et de « destager » les résultats sur un stockage froid, de type Dell ECS, puis d’utiliser les mécanismes de protection inclus avec les solutions, comme les « ransomware defender », des snapshots ou version intelligents ou encore le mode WORM (Write Once Read Many).

Réduire l’empreinte énergétique du calcul

L’autre travail des constructeurs est de délivrer un maximum de puissance en consommant le moins d’énergie possible. Chez Dell, nous intervenons à plusieurs niveaux. Tout d’abord, nous sommes parmi les premiers fournisseurs au monde à intégrer de manière industrialisée et standardisée un refroidissement liquide direct (DLC, Direct Liquid Cooling) dans nos serveurs haute performance.

Ensuite, nous travaillons également sur le refroidissement par immersion, avec des technologies qui laissent la liberté de faire évoluer les infrastructures. Enfin, nous collaborons étroitement avec nos partenaires, comme Schneider Electric, pour bâtir la responsabilité énergétique des supercalculateurs, avec des systèmes permettant de récupérer la chaleur émise par les serveurs pour chauffer des bâtiments à proximité.

Avancer ensemble vers le zettaflop

Parce que chaque entreprise a des besoins différents, chaque supercalculateur est différent et chaque architecture est différente. Nos équipes, nos laboratoires d’innovation et nos centres d’excellence sont à votre disposition pour réaliser des PoC et mener des simulations. N’hésitez pas à nous contacter afin de définir ensemble vos cas d’usage et les réponses technologiques adaptées.

About the Author: Vincent Barbelin

Vincent Barbelin est CTO, CTO Ambassador de Dell technologies France.