Quel stockage pour votre IA ?

Vous avez déployé les serveurs de calcul les plus performants du marché pour exécuter vos algorithmes de machine learning et deep learning à très haute vitesse. Mais est-ce que votre infrastructure de stockage est suffisamment robuste pour tenir le rythme ?

Il est toujours intéressant de creuser les chiffres. Car les enseignements les plus importants ne sont bien souvent pas en surface. Prenons ces données, publiées en septembre dernier par IDC : Les dépenses mondiales dans les technologies d’intelligence artificielle devraient atteindre 97,9 milliards de dollars en 2023, contre 37,5 milliards en 2019, soit une croissance annuelle moyenne de 28,4 %. Mais le plus intéressant n’arrive qu’ensuite. « La plus grande part de ces dépenses sera consacrée aux services, écrit l’institut, alors que les entreprises recherchent une expertise externe pour concevoir et implémenter leurs projets. » Beaucoup d’entreprises veulent exploiter l’IA, peu disposent de l’intégralité des compétences nécessaires pour le faire. Heureusement, il existe aujourd’hui des architectures de référence qui permettent de réduire la complexité. Le stockage est un bon exemple.

Les organisations qui se sont lancées dans la création de plateformes de machine learning ou deep learning ont très largement recours à des GPU pour obtenir de très hautes capacités de calcul parallèle. Le serveur NVIDIA DG-X 1 par exemple, spécifiquement dédié au deep learning, intègre huit GPU Tesla V100, chacun offrant plus de 100 Teraflops de puissance. Mais toute cette puissance risque de s’avérer vaine si la plateforme de stockage qui lui est associée ne parvient pas à suivre le rythme. Dell et NVIDIA ont donc conçu l’architecture de référence DGX, qui intègre non seulement la partie serveur, mais également un stockage adapté aux besoins des workloads d’intelligence artificielle. En voici les quatre caractéristiques clés.

  • Faible latence

Latence et débit sont cruciaux pour entraîner efficacement des modèles TensorFlow, Spark ML ou encore Caffe. Pour que les temps d’accès aux données soient le plus court possible, il existe deux ingrédients majeurs : les supports SSD et les processeurs multicœurs. La plateforme Dell Isilon propose une infrastructure 100 % flash épaulée par des processeurs Intel Xeon E5 dotés de 20 cœurs chacun. Un chassis Isilon F800 de 4 nœuds comprend donc 60 SSDs et 80 cœurs capables d’offrir une latence en millisecondes, jusqu’ à 250 000 E/S par seconde et une bande passante de 15 Go/s.

  • Scalabilité massive

Plus le temps passe, plus les systèmes d’intelligence artificielle vont avoir besoin de plus de données pour affiner leurs résultats et leurs prises de décision. Il est donc primordial de bâtir une infrastructure de stockage capable d’évoluer de manière aussi massive que les besoins de l’IA. Le système d’exploitation OneFS intégré aux infrastructures Isilon peut gérer jusqu’à 63 châssis. Ce sont donc 252 nœuds qui peuvent être associés en un cluster unique de 58 pétaoctets de stockage flash.

  • Accès multiprotocole

Le support natif de multiples protocoles, comme SMB, NFS, HTTP ou HDFS élimine le besoin de migrer et copier les données et les résultats sur différentes briques. Les entreprises peuvent ainsi exécuter à la fois leurs algorithmes de deep learning et leurs autres applications sur un même cluster.

  • Richesse fonctionnelle

Vos données représentent un capital extrêmement précieux pour le business. La plateforme de stockage de votre IA doit donc intégrer des fonctions de gestion complètes et robustes pour assurer la protection et la résilience des informations. Ces dernières doivent notamment permettre de gérer efficacement le cycle de vie des données, afin de garantir non seulement que leur utilisation soit conforme à la réglementation en vigueur, mais aussi que les coûts de traitement de ces énormes volumes de données restent maîtrisés.

Performances, évolutivité, coûts, les critères de choix d’une plateforme de stockage pour l’intelligence artificielle semblent donc somme toute assez classiques. La différence sera en revanche importante dans l’échelle d’évaluation. Les workloads d’IA constituent des charges extrêmes en termes de consommation de ressources et vous devrez donc vous assurer que votre stockage sera suffisamment robuste pour encaisser le raz-de-marée de requêtes en provenance des serveurs. Si vous voulez être certain que le couple fonctionnera, les infrastructures de référence portent bien leur nom.

About the Author: Dell Technologies