Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Performances des applications HPC avec Turing

Summary: Article rédigé par Frank Han, Rengan Xu, Deepthi Cherlopalle et Quy Ta du laboratoire d’innovation HPC   AI de Dell EMC en mars 2019

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms


Sommaire :

  1. Résumé
  2. Présentation
  3. HOOMD-blue
  4. Orange
  5. NAnoscale Molecular Dynamics (NAMD)
  6. High Performance Linpack (HPL)
  7. Conclusions et travaux futurs

 

Résumé

 

Turing™ est le dernier-né de la famille de processeurs NVIDIA®. Il succède à l’architecture Volta. Le processeur graphique Turing™ est disponible avec GeForce®, où il est utilisé pour produire des jeux extrêmement réalistes, mais aussi avec Quadro®, pour accélérer les flux de travail de création de contenu. La gamme Tesla® de NVIDIA® a été conçue pour gérer des systèmes d’intelligence artificielle et des charges applicatives de calcul haute performance (HPC) dans les datacenters. NVIDIA® Tesla® T4 est le seul processeur graphique de niveau serveur doté de la microarchitecture Turing™ disponible dès maintenant sur le marché. Il est pris en charge par les serveurs Dell EMC PowerEdge R640, R740, R740xd et R7425. Ce blog compare les performances du nouveau Tesla T4 au dernier Volta V100-PCIe sur le serveur PowerEdge R740 pour différentes applications HPC, notamment HOOMD-blue, Amber, NAMD et HPL.


Retour au début


 

Présentation

 

Le serveur PowerEdge R740 est un serveur à montage en rack 2U basé sur Intel® Skylake, qui assure un équilibre optimal entre stockage, E/S et prise en charge d’accélérateurs. Il peut prendre en charge jusqu’à quatre* processeurs graphiques T4 à un seul slot ou trois processeurs graphiques V100-PCIe double slot dans 16 logements PCIe 3.0.  Le Tableau 1 présente les différences entre un T4 et un V100. Le Volta™ V100 est disponible en configurations de mémoire de 16 Go ou 32 Go.  Étant donné que le T4 n’est disponible qu’en version 16 Go, la carte V100 avec 16 Go de mémoire a été utilisée pour produire des résultats de performances comparables. Le Tableau 2 décrit les détails matériels et logiciels du banc d’essai.

Tableau 1 : Comparaison entre le T4 et le V100

 

Tesla V100-PCIe

Tesla T4

Architecture

Volta

Turing

Cœurs CUDA

5 120

2 560

Cœurs Tensor

640

320

Capacité de calcul

7.0

7.5

Fréquence d’horloge du processeur graphique

1 245 MHz

585 MHz

Horloge Boost

1 380 MHz

1 590 MHz

Type de mémoire

HBM2

GDDR6

Bus mémoire

4 096 bits

256 bits

Bande passante

900 Go/s

320 Go/s

Largeur du logement

Double logement

Simple logement

FP32 simple précision

14 TFLOPS

8.1 TFLOPS

Précision mixte (FP16/FP32)

112 TFLOPS

65 TFLOPS

FP64 double précision

7 TFLOPS

254,4 GFLOPS

TDP

250 W

70 W

 

Tableau 2 : Détails de la configuration R740 et de la version logicielle

Processeur

2 processeurs Intel® Xeon® Gold 6136 à 3,0 GHz, 12c

Mémoire

384G (12 x 32G à 2 666 MHz)

Disque local

SSD 480G

Système d’exploitation

Red Hat Enterprise Linux Server version 7.5

PROCESSEUR GRAPHIQUE

3 V100-PCIe 16 Go ou 4 T4 16 Go

Pilote CUDA

410.66

Toolkit CUDA

10.0

Paramètres du processeur > processeurs logiques

Désactivé

Profils système

Performances

HPL

Compilé avec CUDA 10.0

NAMD

NAMD_Git-2019-02-11

Orange

18.12

HOOMD-blue

v2.5.0

OpenMPI

4.0.0

 


Retour au début


 

Cause

HOOMD-blue

 

SLN316570_en_US__1image(9290)

Figure 1 : Résultats des performances sur l’application HOOMD-blue simple et double précision avec des V100 et des T4 sur un serveur PowerEdge R740

HOOMD-Blue (Highly Optimized Object-oriented Many-particle Dynamics - blue) est un simulateur de dynamique moléculaire à usage général. Par défaut, HOOMD-blue est compilé en double précision (FP64) et la version 2.5 fournit un paramètre SINGLE_PRECISION = ON pour forcer sa compilation en mode simple précision (FP32). La Figure 1 présente les résultats du jeu de données Microsphere en mode simple précision et double précision. L’axe des x représente le nombre de processeurs graphiques et les performances sont mesurées sur la base du nombre d’heures nécessaires pour exécuter des paliers 10e6.

  1. On remarque que les performances FP64 du T4 sont relativement faibles. Ces mauvaises performances sont dues à une limite matérielle. En théorie, le T4 peut fournir des performances optimales de 254 GFLOPS (voir Tableau 1) en mode double précision. Le V100 offre des performances environ 27 fois plus élevées. Mais les applications comme HOOMD-blue, qui peuvent être compilées et exécutées en mode simple précision, peuvent présenter des performances avantageuses avec l’option de compilation FP32. La communauté HOOMD-blue a pris en compte notre suggestion de prendre en charge la précision mixte sur tous les modules HOOMD-blue. Une fois le travail de développement terminé, HOOMD-blue pourra tirer le meilleur parti des matériels pris en charge en mode précision mixte.

  2. En comparant les performances des systèmes T4 et V100 en mode simple précision, il est apparu que le V100 présentait des performances trois fois supérieures à celles du T4. Ces performances du T4 s’expliquent par le nombre de cœurs CUDA et par la puissance nominale de l’accélérateur.

  3. Les processeurs graphiques du serveur PowerEdge R740 sont connectés via PCIe. Pour les trois points de données du processeur graphique V100, le bus PCIe est saturé en cas de communication entre homologues. Cela a une incidence sur les performances globales, ce qui produit des performances comparables à celles obtenues avec un seul processeur graphique.

 


Retour au début


 

Orange

 


Amber est le nom collectif d’une suite de programmes qui permet aux utilisateurs d’effectuer des simulations de dynamique moléculaire, en particulier sur des biomolécules. Le terme Amber est également utilisé en référence aux champs de force empirique qui sont mis en œuvre dans cette suite de programmes. La version Amber 18.12 avec AmberTools 18.13 est testée avec la suite d’évaluation Amber 18, qui comprend JAC, Cellulose, FactorIX, STMV, TRPCage et les jeux de données de myoglobines et de nucléosomes.

SLN316570_en_US__2image(9276)

Figure 2 : Résultats des simulations de solvant explicite obtenus avec Amber, avec des V100 et des T4 sur un serveur PowerEdge R740

SLN316570_en_US__3image(9277)

Figure 3 : Résultats des simulations de solvant implicite obtenus avec Amber, avec des V100 et des T4 sur un serveur PowerEdge R740 

La Figure 2 et la Figure 3 montrent les performances au niveau de la carte et du système global obtenues sur des solvants explicite et implicite.  Le point de données « système » du graphique ci-dessus représente le débit global au niveau système de l’ensemble des processeurs graphiques. Le serveur PowerEdge R740 prend en charge trois V100 ou quatre T4. Les barres « système » en rouge et en bleu reflètent donc les résultats obtenus avec trois V100 ou quatre T4.

Nous avons préféré agréger les données de plusieurs cartes de processeur graphique pour la simple raison que les processeurs Pascal et ultérieurs ne peuvent pas évoluer au-delà d’un seul accélérateur pour l’application Amber. Généralement, les utilisateurs exécutent plusieurs simulations en parallèle sur d’autres processeurs graphiques. Si l’on observe les performances obtenues avec un grand jeu de données comme STMV (1 067 095 atomes), un seul T4 donne des performances de 33 % et le système global représente 44 % de la capacité des V100. Un dataset comme TRPCage (304 atomes uniquement) est trop petit pour permettre une utilisation optimale des V100. Par conséquent, les performances obtenues ne sont pas beaucoup plus rapides qu’un T4 comparativement à des PME plus volumineux. Selon le résultat publié sur le site Web officiel d’Amber, pratiquement tous les résultats obtenus avec des processeurs graphiques sont trois à quatre fois plus rapides que ceux obtenus uniquement avec des processeurs. L’utilisation d’une carte T4 dans un serveur qui gère de petits datasets apparaît donc comme une option avantageuse.


Retour au début


 

Resolution

NAnoscale Molecular Dynamics (NAMD)

 

SLN316570_en_US__4image(9278)

Figure 4 : Résultats des performances NAMD obtenus avec des V100 et des T4 sur un serveur PowerEdge R740

NAMD est un code de dynamique moléculaire conçu pour la simulation de systèmes biomoléculaires volumineux hautes performances. Dans ces tests, le code binaire prédéfini n’a pas été utilisé. Nous avons choisi d’utiliser plutôt le code source le plus récent (NAMD_Git-2019-02-11) avec CUDA 10.0. Pour des performances optimales, NAMD a été compilé avec le compilateur et les bibliothèques Intel® (version 2018u3). La Figure 4 retrace les performances obtenues à l’aide du jeu de données STMV (1 066 628 atomes, périodiques, PME). NAMD n’évolue pas au-delà d’une carte V100, en revanche il évolue très bien avec trois cartes T4. Un seul processeur graphique T4 fournit 42 % des performances d’un V100. Ce résultat est intéressant compte tenu du fait qu’il consomme seulement 28 % du TDP d’un V100. Le T4 peut donc être une bonne option pour les datacenters qui présentent une capacité d’alimentation et de refroidissement limitée.


Retour au début


 

High Performance Linpack (HPL)

 

SLN316570_en_US__5image(9283)

Figure 5 : Résultats des performances HPL obtenus avec des V100 et des T4 sur un serveur PowerEdge R740

La Figure 5 illustre les performances HPL obtenues sur le serveur PowerEdge R740 avec plusieurs processeurs graphiques V100 ou T4. Comme l’on pouvait s’y attendre, les performances HPL évoluent très bien avec plusieurs processeurs graphiques V100 et T4. Toutefois, les performances obtenues avec un T4 sont nettement inférieures à celles d’un V100 en raison de ses performances FP64 limitées. Étant donnée la capacité limitée du T4 en mode double précision, la comparaison des performances avec le V100 n’est pas idéale et il apparaît que le Volta V100 reste la meilleure solution pour ces applications double précision.


Retour au début


 

Conclusions et travaux futurs

 

Dans ce blog, nous avons comparé les performances des applications HPC HOOMD-blue, Amber, NAMD et HPL obtenues avec des processeurs graphiques V100 et T4 sur un serveur Dell EMC PowerEdge R740. Le T4 est non seulement utilisé pour l’inférence d’apprentissage profond, mais il est également utile pour les applications HPC qui prennent en charge les modes simple précision ou précision mixte. Son faible TDP peut aider à accélérer les performances des datacenters traditionnels qui ne disposent que de capacités d’alimentation et de refroidissement limitées. Le format compact PCIe du T4 le rend parfaitement adapté aux serveurs PowerEdge à usage plus général. D’autres tests sont d’ores et déjà prévus avec davantage d’applications, notamment RELION, GROMACS et LAMMPS, ainsi que pour des applications capables de prendre en charge le mode précision mixte.

*Exclusion de responsabilité : Dans le cadre de ce comparatif, quatre processeurs graphiques T4 ont été évalués dans un serveur Dell PowerEdge R740. Actuellement, le serveur PowerEdge R740 prend officiellement en charge un maximum de trois processeurs graphiques T4 dans 16 logements PCIe.


Retour au début


Affected Products

High Performance Computing Solution Resources, PowerEdge R740
Article Properties
Article Number: 000130819
Article Type: Solution
Last Modified: 28 Sep 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.