Préparer votre datacenter à entrer dans le monde de l’IA générative

« J’ai l’impression que nous ne sommes plus au Kansas » – Dorothy dans « Le Magicien d’Oz »

Entrer dans le monde de l’IA générative, c’est comme entrer dans un nouveau royaume, rempli de défis et d’opportunités uniques. Tout comme Dorothy avait besoin d’être guidée pour traverser le Pays d’Oz, les entreprises doivent préparer leurs datacenters à gérer les exigences de l’infrastructure de l’IA.

Les exigences de calcul de la Cité d’Émeraude

Le déploiement d’une infrastructure d’IA comporte des défis importants, à commencer par les exigences de calcul, dont les plus lourdes concernent l’entraînement des modèles. Même si une entreprise ne forme pas des modèles ex nihilo, les exigences de calcul pour l’inférence de grands modèles de langage, ainsi que l’intégration de vecteurs pour la Retrieval Augmented Generation (RAG) et le réglage, dépassent largement celles des applications d’aujourd’hui.

Pour satisfaire ces exigences, les caractéristiques de dimensions physiques, de poids, de câblage, de réseau, d’alimentation et de refroidissement des serveurs d’IA générative optimisés par des processeurs graphiques sont plusieurs fois supérieures aux spécifications correspondantes des serveurs standard. Une planification minutieuse est nécessaire pour que les organisations puissent mettre en place cette infrastructure d’IA dans leurs datacenters.

Par exemple, le serveur Dell PowerEdge XE9680, validé par Dell pour les cas d’utilisation d’inférence, est un serveur 6U avec 8 processeurs graphiques NVIDIA H100. En raison de sa construction robuste et de sa capacité de refroidissement, ce serveur pèse plus de 100 kg. Un rack avec 4 serveurs XE9680 consomme entre 20 et 40 kW d’électricité, contient plus de 100 câbles et pèse plus de 500 kg.

En fonction de vos besoins et de l’ampleur de votre déploiement d’IA, vous pouvez choisir d’appliquer les recommandations décrites dans ce blog à l’ensemble de votre datacenter ou à une section dédiée à l’IA du datacenter.

Le cerveau de l’épouvantail : la capacité du datacenter

Dans l’histoire, l’épouvantail dit qu’il a besoin d’un cerveau et que son plan est de suivre Dorothée pour trouver le magicien. Dans une infrastructure de l’IA, il est vital d’avoir un plan pour déterminer la taille du datacenter et l’allocation de l’espace pour l’installation des serveurs et des racks, l’optimisation de la circulation de l’air et la maintenance.

 Les spécialistes du déploiement des services Dell peuvent travailler avec votre équipe pour concevoir l’espace qui permettra de gérer efficacement un grand nombre de racks d’infrastructure d’IA et fournir de la capacité supplémentaire pour une extension future.

Organiser les racks pour faciliter l’accès aux serveurs et à l’infrastructure pour leur maintenance est la clé d’un datacenter bien conçu et cette règle s’applique également à l’infrastructure d’IA. Les équipes doivent établir un calendrier de maintenance régulière à suivre, qui comprend des contrôles réguliers et le remplacement des filtres à air, des ventilateurs et des unités de refroidissement, dès que nécessaire.

Le courage du lion : la gestion efficace de la circulation de l’air

La circulation de l’air est essentielle pour évacuer la chaleur générée par les serveurs et les systèmes d’infrastructure. Une infrastructure d’IA consomme beaucoup plus d’électricité que les serveurs traditionnels, ce qui génère plus de chaleur et rend la circulation de l’air
et le refroidissement encore plus importants.

Les entreprises doivent utiliser des stratégies structurées de gestion de la circulation de l’air, telles que le confinement des allées chaudes et froides et l’orientation de l’air frais directement dans les entrées des serveurs et de l’air chaud évacué loin de l’équipement. Cela permettra d’améliorer l’efficacité du refroidissement et de réduire les coûts énergétiques.

Le cœur de l’homme de fer-blanc : une puissance et un refroidissement avancés

Pour utiliser les serveurs à forte densité de processeurs graphiques dans de bonnes conditions, il est essentiel d’évaluer les besoins en matière d’électricité et de refroidissement. La planification doit inclure l’évaluation des besoins totaux en énergie, actuels et futurs, en veillant à ce qu’il y ait suffisamment de ressources et de systèmes de secours en place pour fonctionner sans interruption. Les datacenters qui n’ont pas été conçus pour répondre aux exigences plus élevées de l’infrastructure d’IA risquent de ne pas être équipés pour gérer des serveurs à forte densité de processeurs graphiques.

Envisagez d’investir dans les toutes dernières technologies d’alimentation et de transformateur offrant de meilleurs rendements énergétiques. Ils réduisent non seulement la consommation énergétique, mais aussi l’impact écologique des opérations du datacenter. Utilisez des onduleurs (UPS) pour fournir une alimentation électrique en cas d’urgence, ainsi que des unités d’alimentation (PDU) écoénergétiques pour gérer et répartir efficacement l’énergie au sein du datacenter.

L’équipe Dell vous aidera à évaluer les besoins de refroidissement pour gérer la chaleur générée par les charges applicatives très gourmandes en IA. À mesure que les charges applicatives d’IA se multiplient, le refroidissement par air traditionnel peut ne pas suffire. La mise en œuvre de solutions de refroidissement liquide peut réduire considérablement la charge thermique, ce qui permet d’évacuer plus efficacement la chaleur et garantit la stabilité et la longévité des configurations plus exigeantes.

 

Le chemin de Toto : la complexité, l’organisation et l’agencement des câbles

Nous ne pouvions pas passer à côté de Toto ! Tout comme Toto évitant les obstacles du Pays d’Oz, notre approche du déploiement de l’IA comprend des solutions méticuleuses de gestion des câbles qui incluent l’acheminement aérien et la gestion thermique. Les systèmes de transport doivent être conçus de manière à séparer les câbles d’alimentation et de données, afin de minimiser les interférences et d’améliorer la sécurité et la fiabilité du système.

À l’intérieur du rack, il est important de réduire l’encombrement afin d’éviter de bloquer la circulation de l’air et de permettre aux techniciens de localiser facilement le câble approprié. Mal acheminés, les câbles peuvent entraîner une accumulation de chaleur et des problèmes avec l’infrastructure de commutation.

En outre, la configuration d’un « pod » d’IA générative signifie souvent qu’un rack de mise en réseau dessert plusieurs racks de serveurs avec processeur graphique, ce qui se traduit par des câbles plus nombreux et plus longs entre les racks. Pour organiser systématiquement ce volume accru de câbles et de connexions, les pratiques d’excellence incluent la conception et la mise en œuvre d’un système de câblage et d’étiquetage structuré.

Pour accompagner la croissance future, déployez des systèmes de gestion des câbles ajustables tels que des panneaux modulaires et des racks ajustables. La suite IA Dell de services professionnels d’IA comprend également des services de déploiement d’infrastructure pour faciliter l’agencement et la gestion des câbles.

Pour simplifier davantage le déploiement sur site, Dell peut créer, configurer, câbler et tester l’infrastructure d’IA en usine, ce qui réduit considérablement la quantité de travail à effectuer dans votre datacenter.

 

La sagesse de Dorothy : les considérations sur l’élimination des emballages

 Dell a conscience des implications environnementales et logistiques associées à l’élimination des emballages. Choisissez des matériaux recyclables ou biodégradables pour l’emballage des câbles et mettez en œuvre des protocoles de mise au rebut qui privilégient le développement durable, ce qui permet de répondre aux exigences réglementaires et d’améliorer le profil écologique du datacenter.

Les organisations doivent également évaluer leurs datacenters afin de trouver des moyens de réduire la consommation électrique (et les besoins de refroidissement qui en découlent) de l’infrastructure existante. Cela peut aider à compenser certains des besoins de l’infrastructure d’IA et à réduire l’impact de l’empreinte carbone.

Les solutions Dell visent à réduire les déchets et à gérer efficacement les coûts de mise
au rebut, en veillant à ce que le déploiement de l’infrastructure d’IA soit aussi respectueux
de l’environnement que technologiquement avancé.

Sur la route de brique jaune vers un datacenter prêt pour l’IA

Tout comme les personnages principaux du « Magicien d’Oz », qui ont surmonté les obstacles grâce à l’aide de leurs amis, Dell Technologies peut aider votre entreprise à suivre la bonne voie pour se doter d’un datacenter prêt pour l’IA générative grâce à une planification et à une assistance expertes.

Pour en savoir plus sur la préparation de votre datacenter au nouveau monde de l’IA, consultez Dell Professional Services pour l’IA générative ou contactez votre représentant Dell.

About the Author: Matt Liebowitz

Matt Liebowitz is the Global Multicloud lead for the Dell Technologies Consulting Services Portfolio. He focuses on thought leadership and service development for multicloud, automation and data center related Consulting services. Matt has been named a VMware vExpert every year since 2010 and is a frequent blogger and author on a wide range of cloud related topics. Matt has been a co-author on three virtualization-focused books, including Virtualizing Microsoft Business-critical Applications on VMware vSphere and VMware vSphere Performance. He is also a frequent speaker at the VMware Explore and Dell Technologies World conferences.