L’article écrit par SAVITHA Pareek, Varun Bawa, & Ashish K Singh de HPC et de l’innovation de l’innovation pour
lesprocesseurs de la gamme Intel®® Xeon de 2019 de 3e génération (architecture portant le nom de l’architecture ) est un successeur d’Intel à Skylake et est prêt pour le moment. L’équipe HPC Engineering sur Dell EMC a accès à quelques unités de test d’ingénierie et ce blog présente les résultats de notre étude de référence initiale.
L’objectif de ce blog est d’illustrer et d’analyser les performances obtenues sur les derniers processeurs de la gamme Intel® Xeon® évolutive et de comparer les performances à son prédécesseur. Nous avons choisi les benchmarks STREAM, HPL et HPCG pour l’analyse. L’étude met en évidence l’impact sur les performances pour un ou plusieurs nœuds. Ces tests ont été effectués sur Dell EMC PowerEdge C6420 (Single node Study) et PowerEdge R740 (Study à plusieurs nœuds) avec les paramètres BIOS recommandés pour les charges applicatives HPC. Le processeur en cascade Lake est doté de nombreuses améliorations, comme Intel® Deep Learning Boost (Intel DL Boost) avec VNNI, une bande passante de mémoire plus élevée, ainsi que des performances et une efficacité accrues en matière de virgule flottante.
Tableau 1 : Informations Testbed
Serveur |
PowerEdge C6420 & PowerEdge R740 |
|||
Processeurs |
Configuration à un seul nœud |
Configuration à plusieurs nœuds |
||
Server-PowerEdge C6420 & PowerEdge R740 |
R740 serveur-PowerEdge |
|||
Skylake – Intel Xeon® 6142 [16C@2.6GHz] Intel Xeon® 6130 [16C@2.1 GHz] Intel Xeon® 8180 [28 $2,5 GHz] |
Lake en cascade – Intel Xeon® 8268 [24C@2.90GHz] |
|||
Lake en cascade – Intel Xeon® 6242 [16C à 2,8 GHz] Intel Xeon® 6230 [20C@2.1 GHz] Intel Xeon® 8280 [28 à 2,7 GHz] |
||||
Mémoire |
Test de la carte Lake-192 Go ;-12 x 16 Gbit 2933 MT/s DDR4 Skylake test – 192 Go ;-12 x 16 Gbit 2933 MT/s DDR4 (MT/s 2666 actif) |
|||
Système d’exploitation |
Red Hat Enterprise Linux 7,6 |
|||
Version du noyau |
3.10.0-957.el7.x86_64 |
|||
Options de BIOS |
Turbo = Enabled, Logical Processor = Disabled, SubNumaCluster = Enabled, Virtualization Technology = Disabled. |
|||
InfiniBand |
Chemin Intel Omni avec IFS 10.9.2 |
|||
Compilation |
Intel Parallel Studio XE 2018 mise à jour 4 |
|||
Applications |
||||
Étalonne |
Domaine |
Version |
Configuration de test |
|
HPL |
LINPACK hautes performances |
Intel MKL – 2018 U4 |
Taille du problème : 90% de la mémoire totale |
|
HPCG |
Gradient de gradient de hautes performances : calcul |
Intel MKL – 2018 U4 |
Taille du problème : 336 x 336 x 336 |
|
OBJET |
Bande passante de la mémoire |
5.4 |
Triple |
|
Les tests ont été réalisés pour quantifier les deux cas suivants :
Objet
Pour obtenir les performances de la bande passante de la mémoire maximale sur Intel Cascading Lake et Skylake, nous avons choisi une analyse comparative des flux , qui est le benchmark de facto en termes de référence dans HPC domaine pour la mesure de la bande passante de mémoire durable (en Go/s). La valeur de la TRIPLEté a été utilisée pour comparer la bande passante de la mémoire.
Figure1 : FLUX : Skylake par rapport à la cascade lac
La fréquence de mémoire maximale prise en charge pour Skylake est de 2666MT/s alors que cascade Lake prend en charge les 2933MT/s, ce qui signifie 10% de la fréquence de mémoire supérieure avec cascade Lake. Comme illustré à la figure 1, les processeurs en cascade Lake indiquent une bande passante de mémoire supplémentaire de 7 à 12% par rapport à Skylake. La bande passante de mémoire par cœur dépend du processeur SKU spécifique. Étant donné que certaines références en cascade lac ont des cœurs supplémentaires par rapport aux Skylake, les comparaisons de bande passante de mémoire par cœur sont différentes de celles de la bande passante de la mémoire totale. Comme illustré à la figure 1, les versions 8280 et 6242 ont plus de bande passante de mémoire par cœur jusqu’à 7% par rapport à leurs prédécesseurs respectifs. Toutefois, 6230 affiche 11% de la bande passante de mémoire par cœur par rapport à 6130 en fonction de l’augmentation de 25% des cœurs pour 6230. La bande passante de mémoire par cœur peut être un facteur important pour les applications qui sont sensibles à la bande passante de la mémoire.
LINPACK -
Nous avons mesuré la capacité de calcul des processeurs à l’aide d’Intel LINPACK. La taille du problème (N) est de 90% de la mémoire système tandis que la taille de bloc (NB) est 384. Ici, nous proposons à la fois les performances et l’évolutivité avec les processeurs en cascade Lake.
Skylake par rapport à la cascade Lake –
Figure 2 : Performances de LINPACK (Skylake vs en cascade Lake)
Comme illustré à la figure 2, LINPACK montre l’amélioration des performances jusqu’à 15% avec les processeurs en cascade Lake. Cette comparaison repose sur le numéro de modèle de l’UC, en comparant Skylake et leurs successeurs de la gamme Intel Xeon® Scalable. Les processeurs Intel Xeon® 6230 avec 4 cœurs supplémentaires par socket sont dotés d’une augmentation des performances de 15% par rapport à 6130, tandis que les versions 8280 et 6242 avec un nombre de cœurs équivalent à celui de leurs prédécesseurs augmentent l’amélioration des performances en augmentant la fréquence de la base de l’UC et la bande passante de mémoire plus élevée.
Performances à plusieurs nœuds -Dans le cas d’une étude à plusieurs nœuds, nous avons utilisé un cluster à 8 nœuds de PowerEdge serveurs R740 dotés de processeurs Intel Xeon® 8268 et capturé des résultats pour les nœuds 1, 2, 4 et 8. Le reste de la configuration du système est mentionné dans le tableau 2.
Figure 3 : Performances de LINPACK à plusieurs nœuds avec 8268 @ 2,90 GHz
Comme illustré à la figure 3, les performances de LINPACK pour un seul nœud 8268 sont 3059 GFLOPS et 23946 GFLOPS pour 8 nœuds, ce qui signifie que l' 7.83 X est mise à l’échelle de 1 nœud à 8 nœuds. L’efficacité pour un seul nœud est de 69%, tandis que ~ 67% pour 2, 4 et 8 nœuds. L’efficacité passe de 1 nœud à 2 nœuds ; Toutefois, l’évolutivité est essentiellement linéaire par la suite.
Benchmark HPCG
Le benchmark HPCG est basé sur le solveur de gradient conjugué, où la pré-condition est une méthode à trois niveaux (MG) hiérarchique à trois niveaux avec Gauss-Seidel.
Le benchmark HPCG élabore un système linéaire à l’échelle physique, physiquement distribué, à l’aide d’un stencil à 27 points sur chaque point de grille dans un domaine 3D, de sorte que l’équation au point (i, j, k) dépend de ses valeurs et de 26 voisins environnants. Le domaine global calculé par benchmark est (NRx * NX) X (NRy * NY) X (NRz * NZ), où NX, NY et NZ sont des dimensions des sous-réseaux locaux, attribués à chaque processus MPI et le nombre de rangées MPI sont NR = (NRx X NRy X NRz).
Pour notre analyse, nous avons divisé les tests en 2 catégories :
Skylake vs en cascade Lake – dans cette section, nous comparons Skylake avec cascade Lake en utilisant les performances de HPCG. Nous avons utilisé la taille de grille de 336 ^ 3 , qui occupe plus de 1/4e de mémoire système totale. Le nombre de processus MPI par nœud et le nombre de threads a été basé sur les meilleurs résultats et le taux d’utilisation de la mémoire.
Figure 4 : Performances de HPCG (Skylake vs en cascade Lake)
Comme illustré à la figure 4, nous observons une amélioration significative des performances de HPCG avec les processeurs en cascade Lake sur leurs prédécesseurs. Étant donné que HPCG est plus une application limite de mémoire, l’amélioration des performances avec les processeurs en cascade Lake est conforme au résultat du test de benchmark, où 6230 réalise 10% supérieure à 6130, 6242 est de 12% supérieure à 6142 et 8280 à 7% plus efficace que 8180.
HPCG avec plusieurs nœuds : pour les benchmarks à plusieurs nœuds, nous avons choisi la taille de grille de dimension locale de 336 ^ 3 , ainsi que la combinaison de processus et de threads OpenMP.
Figure 5 : Performances de HPCG à plusieurs nœuds avec cascade Lake
La figure 5 illustre les performances de HPCG avec cascade Lake 8268 à 2,9 GHz et une mise à l’échelle jusqu’à 8 nœuds. Les performances de HPCG sont 43GFLOPS pour un nœud unique et 84GFLOPS pour deux nœuds, ce qui signifie que l’amélioration des performances de 1.96 X est améliorée avec deux nœuds. Au fur et à mesure que nous passons à 4 et 8 nœuds, les performances s’améliorent jusqu’à 7.7 X.
Conclusion
En ce qui concerne la disponibilité des processeurs lac en cascade, les systèmes de PowerEdge peuvent désormais prendre en charge des vitesses de mémoire allant jusqu’à 2933 MT/s avec ce processeur de nouvelle génération. Nos tests avec les processeurs en cascade Lake montrent une amélioration des performances de 7-12% dans la bande passante de la mémoire, 4-15% d’amélioration dans HPL et 7-12% d’amélioration dans HPCG sur les modèles de processeur que nous avons comparés. Les tests en cascade de 1 à 8 nœuds présentent une évolutivité satisfaisante, car nous avons vu Skylake par le passé.
En outre, la fonction cascade Lake présente des instructions VNNI qui peuvent accélérer les charges applicatives d’apprentissage profonde de 2 x 3, décrites plus en détail dans ce blog.
Nous envisageons d’évaluer l’avantage de performance de en cascade Lake sur différentes applications HPC telles que WRF, NAMD, GROMACS, CP2K et LAMMPS