Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Caractérisation du BIOS pour le HPC avec les processeurs Intel Cascade Lake

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Article écrit par Varun Bawa, Savitha Pareek et Ashish K Singh du HPC and AI Innovation Lab en avril 2019

Resolution

Avec le lancement de la 2e génération de processeurs Intel Xeon® Scalable Family (architecture nommée « Cascade Lake »), Dell EMC a mis à jour les serveurs PowerEdge de 14e génération afin de bénéficier de l’augmentation du nombre de cœurs et des vitesses de mémoire plus élevées, ce qui profite aux applications HPC.

Ce blog présente la première série de résultats et traite de l’impact des différentes options de réglage du BIOS disponibles sur le serveur Dell EMC PowerEdge C6420 avec les derniers processeurs Intel Xeon® Cascade Lake pour certaines applications et points de référence HPC. Vous trouverez ci-dessous une brève description du processeur Cascade Lake, des options du BIOS et des applications HPC utilisées dans cette étude.

Cascade Lake est le successeur de Skylake d’Intel. Le processeur Cascade Lake prend en charge jusqu’à 28 cœurs, six canaux de mémoire DDR4 et une vitesse allant jusqu’à 2 933 MT/s. À l’instar de Skylake, Cascade Lake prend en charge une puissance de vectorisation supplémentaire avec le jeu d’instructions AVX512 permettant 32 DP FLOP/cycle. Cascade Lake présente les Vector Neural Network Instructions (VNNI), qui accélèrent les performances des charges applicatives d’IA et de DL telles que la classification d’images, la reconnaissance vocale, la traduction linguistique, la détection d’objets et bien plus encore. VNNI prend également en charge les instructions 8 bits pour accélérer les performances d’inférence.

Cascade Lake inclut des mesures d’atténuation matérielles pour certaines failles de sécurité de canal latéral. On s’attend à ce que cela puisse améliorer les performances sur les charges applicatives de stockage. Recherchez les futures études du laboratoire d’innovation.

Skylake et Cascade Lake étant compatibles avec les sockets, les boutons de réglage du processeur exposés dans le BIOS du système sont similaires sur ces générations de processeurs. Les options de réglage du BIOS suivantes ont été explorées dans cette étude, à l’instar des travaux publiés par le passé sur Skylake.

Paramètres du processeur :

  • Prérécupération de la ligne suivante du cache : Le mécanisme de prérécupération de la ligne de cache adjacente permet une prérécupération automatique du matériel, il fonctionne sans intervention du programmeur. Lorsque cette option est activée, elle peut accueillir deux lignes de cache de 64 octets dans un secteur de 128 octets, que la ligne de cache supplémentaire ait été demandée ou non.
  • Prérécupérateur de logiciel : Il évite le blocage en chargeant les données dans le cache avant qu’elles ne soient nécessaires. Exemple : Pour prérécupérer les données de la mémoire principale vers le cache N2 bien avant l’utilisation avec une instruction de prérécupération N2, puis prérécupérer les données du cache N2 vers le cache N1 juste avant l’utilisation avec une instruction de prérécupération N1. Ici, lorsque cette option est activée, le processeur prérécupérera une ligne de cache supplémentaire pour chaque demande de mémoire.
  • SNC (cluster sous-numa) : L’activation de SNC revient à diviser le socket unique en deux domaines NUMA, chacun doté de la moitié des cœurs physiques et de la moitié de la mémoire du socket. Si cela vous semble familier, son utilitaire est similaire à celui de l’option Cluster-on-die , disponible pour les processeurs Intel Xeon E5-2600 v3 et v4. SNC est implémenté différemment de COD, et ces modifications améliorent l’accès aux sockets distants dans Cascade Lake par rapport aux générations précédentes, qui utilisaient l’option Cluster-on-Die. Au niveau du système d’exploitation, un serveur à deux sockets avec SNC activé affiche quatre domaines NUMA. Deux des domaines seront plus proches l’un de l’autre (sur le même socket), et les deux autres seront plus éloignés, de l’autre côté de l’UPI vers le socket distant. Cela peut être observé à l’aide d’outils de système d’exploitation tels que : numactl –H et est illustré à la figure 1.
SLN316864_en_US__1image001(1)
Figure 1 : Disposition des nœuds NUMA

Profils système :

Les profils système sont des méta-options qui, à leur tour, définissent plusieurs options du BIOS axées sur les performances et la gestion de l’alimentation, telles que le mode Turbo, Cstate, C1E, la gestion Pstate, la fréquence hors cœurs, etc.  Les différents profils système comparés dans cette étude sont les suivants :
  • Performances
  • Performances par wattDAPC
  • Performances par wattOS
Nous avons utilisé deux points de référence HPC et deux applications HPC pour comprendre l’impact de ces options de BIOS sur les performances de Cascade Lake. Les configurations des serveurs et des applications HPC utilisées pour cette étude sont décrites dans les Tableaux 1 et 2.
Applications Domaine Version Référence
High Performance Linpack (HPL) Calcul-Résolution d’un système dense d’équations linéaires D’après Intel MKL - 2019 Update 1 Taille du problème 90 %, 92 % et 94 % de la mémoire totale
Flux Bande passante de la mémoire 5.4 Triade
WRF Recherche et prévisions météorologiques 3.9.1 Conus 2.5km
ANSYS® Fluent®  Dynamique des fluides 19.2 Ice_2m,
Combustor_12m,
Aircraft_wing_14m,
Exhaust_System_33m

Tableau 1 : Applications et analyses comparatives

divers Détails
Serveur Serveur PowerEdge C6420
Processeur Processeur Intel® Xeon® Gold 6230 @ 2,1 GHz, 20 cœurs
Mémoire 192 Go, 12 x 16 Go, 2 933 MT/s, DDR4
Système d’exploitation Red Hat Enterprise Linux 7.6Red Hat Enterprise Linux 7.6
Noyau 3.10.0-957.el7.x86_64
Compilateur Intel Parallel Studio Cluster Edition_2019_Update_1

Tableau 2 : Configuration du serveur

Tous les résultats présentés ici sont basés sur des tests sur un seul serveur ; Les performances au niveau du cluster seront limitées par les performances d’un seul serveur. Les mesures suivantes ont été utilisées pour comparer les performances :
  • Stream : score de triade tel que rapporté par l’analyse comparative des flux.
  • HPL : GFLOP/seconde.
  • Fluent : évaluation du solveur telle que rapportée par Fluent.
  • WRF – Pas de temps moyen calculé sur les 719 derniers intervalles pour Conus 2,5 km

Analyses comparatives et résultats d’application

Abréviations de notation graphique :

Profils système :

Perf – PerformanceSLN316864_en_US__2a2 OS – PerformancePerWattOS SLN316864_en_US__3a3 DAPC – PerformancePerWattDAPCSLN316864_en_US__4a1
Sub-NUMA Clustering : SNC = 0 (SNC = Désactivé) : SNC = 1(SNC = Activé : Formaté comme agrégé par bandes dans les graphiques)
SW – Software Prefetcher : SW = 0 (SW = Disabled) : SW = 1 (SW = Activé)

SLN316864_en_US__5image006
 Figure 2 : Linpack hautes performances

La Figure 2 compare le résultat de HPL avec la taille du problème = 90 %, c’est-à-dire N = 144476 pour différentes options de BIOS. Le graphique représente les gigaflops absolus obtenus lors de l’exécution de HPL sur différentes configurations du BIOS. Ces Gigaflops obtenus sont tracés sur l’axe des ordonnées, plus c’est haut, mieux c’est.
Vous trouverez ci-dessous les observations du graphique :
  • Différence de performances HPL inférieure à 1 % due à la prérécupération logicielle.
  • Pas d’effet majeur du SNC sur les performances HPL (0,5 % meilleur avec SNC = Disabled).
  • Le profil système Performance est jusqu’à 6 % plus performant que le système d’exploitation et le DAPC.
 SLN316864_en_US__6image008
Figure 3 : Flux

La Figure 3 compare le résultat de STREAM dans les différentes configurations du BIOS.
Le graphique trace la bande passante de la mémoire en gigaoctets par seconde obtenue lors de l’exécution de STREAM Triad. La bande passante de la mémoire (Go/s) obtenue est représentée sur l’axe des ordonnées. Plus elle est élevée, mieux c’est. La configuration du BIOS associée à des valeurs spécifiques de gigaoctets par seconde est tracée sur l’axe des abscisses.
Vous trouverez ci-dessous les observations du graphique :
  • Jusqu’à 3 % d’amélioration de la bande passante de la mémoire avec SNC=activé.
  •  Peu d’écart dans les performances dû à la prérécupération logicielle sur la bande passante de la mémoire STREAM. 
  •  Aucun écart entre les profils système.
   SLN316864_en_US__7a4
Figure 4 : Bande passante de la mémoire - SNC

La Figure 4 représente le score de bande passante de la mémoire Stream Triad dans une telle configuration. La bande passante totale de la mémoire système est de ~220 Go/s. Lorsque 20 cœurs d’un socket local accèdent à la mémoire locale, la bande passante de la mémoire est de ~ 109 Go/s, soit la moitié de la bande passante totale du système. La moitié de ce nombre, ~56 Go/s, correspond à la bande passante de la mémoire de 10 threads sur le même nœud NUMA accédant à leur mémoire locale et sur un nœud NUMA accédant à la mémoire appartenant à l’autre nœud NUMA sur le même socket. Il y a une baisse de 42 % de la bande passante de la mémoire à ~33 Go/s lorsque les threads accèdent à la mémoire distante via le lien QPI sur le socket distant. Cela nous indique qu’il y a une pénalité de bande passante significative en mode SNC lorsque les données ne sont pas locales.

SLN316864_en_US__8image012
 Figure 5 : WRF

La Figure 5 compare le résultat de WRF sur différentes options du BIOS. Le jeu de données utilisé est d’environ 2,5 km avec le fichier « namelist.input » par défaut.
Le graphique trace le pas de temps moyen absolu en secondes obtenu lors de l’exécution du jeu de données WRF-conus2.5km sur différentes configurations du BIOS. Le pas de temps moyen obtenu est tracé sur l’axe des ordonnées, le plus bas est le mieux. Les profils relatifs associés à des valeurs spécifiques du pas de temps moyen sont représentés sur l’axe des abscisses.
Vous trouverez ci-dessous les observations du graphique :
  • 2 % d’amélioration des performances avec SNC=Activé.
  •  Aucune différence de performances entre l’option Activé et Désactivé pour la prérécupération logicielle.
  •  Le profil de performances est 1% supérieur aux profils PerformancePerWattDAPC
  SLN316864_en_US__9a7
 SLN316864_en_US__10a6
Les figures 6 à 9 représentent l’évaluation du solveur obtenue lors de l’exécution de Fluent- avec les jeux de données Ice_2m, Combustor_12m, Aircraft_Wing_14m et Exhaust_System_33m, respectivement. L’indice du solveur obtenu est représenté sur l’axe des ordonnées, plus le plus élevé est le mieux. Les profils relatifs associés à des valeurs spécifiques de Temps moyen sont représentés sur l’axe des abscisses.
Vous trouverez ci-dessous les observations globales des graphiques ci-dessus :
  • Performances jusqu’à 4 % supérieures avec SNC=Activé.
  • Aucun effet de la prérécupération du logiciel sur les performances.
  • Jusqu’à 2 % d’amélioration des performances avec le profil Performance par rapport aux profils DAPC et OS.

Conclusion

Dans cette étude, nous avons évalué l’impact des différentes options de réglage du BIOS sur les performances lors de l’utilisation du processeur Intel Xeon Gold 6230. En observant les performances des différentes options de BIOS sur différentes analyses comparatives et applications, on arrive à la conclusion suivante :
  • La prérécupération logicielle n’a pas d’impact significatif sur les performances des jeux de données qui ont été testés. Par conséquent, nous vous recommandons de conserver le prérécupérateur de logiciel par défaut, c’est-à-dire Activé
  • Avec SNC = Activé Augmentation des performances de 2 à 4 % dans Fluent et Stream, environ 1 % dans WRF par rapport à SNC = Désactivé. Par conséquent, nous recommandons que SNC soit activé pour atteindre de meilleures performances.
  • Le profil de performances est de 2 à 4 % plus performant que les performances par wattDAPC et PerformancePerWattOS. Par conséquent, nous recommandons le profil de performances pour HPC .
Il est recommandé de désactiver l’option Hyper-Threading pour les clusters HPC à usage général. En fonction des applications utilisées, les avantages de cette fonctionnalité doivent être testés et activés selon les besoins.

Cette étude n’a pas abordé la fonctionnalité RAS de mémoire appelée ADDDC (Adaptive Double DRAM Device Correction) qui est disponible lorsqu’un système est configuré avec une mémoire disposant d’une organisation DRAM x4 (DIMM de 32 Go, 64 Go). ADDDC n’est pas disponible lorsqu’un système dispose de 8 modules DIMM (8 Go, 16 Go) et que ces configurations ne sont pas matérielles. Pour les charges applicatives HPC, il est recommandé de définir ADDDC sur Désactivé lorsqu’il est disponible en tant qu’option paramétrable.

 

Article Properties


Affected Product

High Performance Computing Solution Resources, Poweredge C4140, Red Hat Enterprise Linux Version 7

Last Published Date

10 Apr 2021

Version

4

Article Type

Solution