Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Dell EMC serveur DSS 8440 alimenté par des processeurs graphiques NVIDIA RTX pour les charges applicatives HPC et IA

Summary: Le Dell EMC serveur DSS8440 est un serveur 2 sockets, conçu pour le calcul haute performance, l’apprentissage machine (ML) et des charges applicatives de formation profonde. Cet article compare les performances de différents GPU, telles que NVIDIA Volta V100S et NVIDIA Tesla T4 tensor Core GPU, ainsi que les GPU NVIDIA Quadro RTX dans ce système. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

 

Deepthi Cherlopalle et Frank Han

 

Dell EMC HPC and AI Innovation Lab 2020 juin

 

Le Dell EMC serveur DSS8440 est un serveur 2 sockets, conçu pour le calcul haute performance, l’apprentissage machine (ml) et des charges applicatives de formation profonde. Il prend en charge plusieurs GPU, telles que NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 et NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 tensor Core GPU, ainsi que les GPU NVIDIA Quadro RTXSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Figure 1 Dell EMC serveur DSS840)

Dans ce blog, nous évaluons les performances des GPU NVIDIA Quadro RTX 6000 et NVIDIA Quadro RTX 8000 par rapport au GPU V100S de niveau supérieur à l’aide des outils d’évaluation des normes de l’industrie. Cela inclut les tests par rapport aux charges applicatives à un seul et double précision. Alors que la gamme Quadro a existé pour une longue durée, les GPU RTX avec une architecture NVIDIA Turing lancée en fin de 2018. Les caractéristiques du tableau 1 indiquent que le GPU RTX 8000 est supérieur au RTX 6000 en termes de configuration de mémoire plus élevée. Toutefois, les GPU RTX 8000 et RTX 6000 ont des besoins d’alimentation plus élevés par rapport au GPU V100S. Pour les charges applicatives qui nécessitent une capacité de mémoire supérieure, le RTX 8000 est le meilleur choix.

Spécifications RTX 6000 RTX 8000 V100S-32 GO
Architecture Turing Volta
Mémoire GDDR6 24 GO 48 GO GDDR6 32 GO HBM2
Fréquence d’horloge par défaut (MHz) 1395 1245
Fréquence d’horloge maximale du GPU (MHz) 1770 1597
Cœurs CUDA 4608 5 120
FP32 (TFLOPS maximum) 16,3 16,4
Bande passante de mémoire (Gbit/s) 672 1134
Alimentation 295 W 250 W

Tableau 1 : caractéristiques du GPU

Serveur DellEMC, PowerEdge, DSS8440
Processeur 2 x Intel Xeon 6248, 20 C à 2,5 GHz
Mémoire 24 x 32 Go à 2933 MT/s (768 Go au total)
UNITÉ  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Stockage 1 x Dell Express Flash NVMe 1 to 2,5 "U. 2 (P4500)
Blocs d'alimentation 4 x 2400 W

Tableau 2 : détails de la configuration du serveur

BIOS 2.5.4
Système d'exploitation RHEL 7,6
Noyau 3.10.0-957.el7.x86_64
Profil système Performances optimisées
CUDA Toolkit
Pilote CUDA
10,1
440.33.01

Tableau 3 : Détails du micrologiciel du système

Application Version
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 mise à jour 4
LAMMPS Mars 3 2020
openmpi – 4.0.3
MLPERF SLN321776_en_US__1iC_External_Link_BD_v1 formation
v 0.6 station d’accueil 19,03

Tableau. 4 informations sur l’application

Cause

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 est une application de Dynamics moléculaire qui est gérée par les chercheurs sur Sandia National Laboratories et Temple University. LAMMPS a été compilé avec le package KOKKOSSLN321776_en_US__6iC_External_Link_BD_v1 pour fonctionner efficacement sur les GPU NVIDIA. Le DataSet Lennard Jones a été utilisé pour la comparaison des performances et Timesteps/s en tant que Metric, comme indiqué dans la figure 2 :

SLN321776_en_US__8image (18427)

(Figure. 2 Lennard Jones Graph)

 Comme indiqué dans le tableau 1, les GPU RTX 6000 et RTX 8000 ont le même nombre de cœurs, les performances de précision unique et la bande passante GPU, mais une mémoire GPU différente. Étant donné que les deux GPU RTX ont une configuration similaire, les performances se trouvent également dans la même plage. Les GPU RTX évoluent bien pour cette application et les performances des deux GPU sont identiques.

Les performances du GPU V100S Volta sont environ trois fois plus rapides que les GPU RTX Quadro. Le facteur clé de ces performances plus élevées est la plus grande bande passante de mémoire GPU du GPU V100S.


High Performance Linpack (HPL)

HPL est un benchmark HPC standard qui mesure les performances du calcul. Il est utilisé en tant que référence comparative par la liste TOP500 pour classer les superordinateurs dans le monde entier.

La figure suivante montre les performances des GPU RTX 6000, RTX 8000 et V100S à l’aide du serveur DSS 8440. Comme vous pouvez le voir, les performances des GPU RTX sont beaucoup plus basses que le GPU V100S. Cela devrait être dû au fait que le HPL effectue une factorisation de la matrice de la matrice, qui est principalement des opérations à double précision.

SLN321776_en_US__9image (18428)

(Figure. 3 performances HPL avec différents GPU)

En comparant les performances théoriques à virgule flottante, autrement dit, Rpeak des deux GPU, nous pouvons constater que les performances du GPU V100S sont bien plus élevées. La valeur Rpeak théorique sur un seul GPU RTX est approximativement 500GFlops. Cette valeur donne moins de performances (Rmax) par GPU. La valeur Rpeak du GPU Volta V100S est de 8.2 TFlops, ce qui permet d’obtenir des performances plus élevées à partir de chaque carte.


MLPerf

La nécessité d’une analyse comparative des performances standard pour les ML a conduit au développement de MLPerf suite. Cette suite comprend des benchmarks pour l’évaluation des performances de formation et d’inférence du matériel et des logiciels en MILLILITREs. Cette section concerne uniquement les performances de formation des GPU. Le tableau suivant répertorie les charges applicatives de formation profonde, les datasets et les critères cibles qui sont utilisés pour l’évaluation des GPU.

Étalonne VSAM Objectif de qualité Modèle d’implémentation de référence
Classification d’image ImageNet (224x224) 75,9% Top 1 : précision ResNet-50 v 1.5
Détection d’objets
(poids clair)
COCO 2017 Schéma de 23% Disque SSD-ResNet34
Détection d’objets
(poids lourd)
COCO 2017 0,377 Box nombre minimum de points d’accès 0,339 minimum de
PA
Masque R-CNN
Traduction
(à jour)
WMT anglais-allemand 24,0 BLEU GNMT
Traduction
(non actualisée)
 WMT anglais-allemand  25,0 BLEU Synchro
Apprentissage de renforcement Sans objet Point de contrôle pré-formé Mini Go

Tableau. 5 datasets MLPerf et critères cibles (source :https://mlperf.org/Training-overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

la figure suivante indique le temps nécessaire pour répondre aux critères cibles pour les GPU RTX et V100S :

SLN321776_en_US__11image (18441)
(Figure 4 MLPERF performances)

Les résultats sont pris en compte après l’exécution de plusieurs exécutions, en ignorant la valeur la plus élevée et la plus basse, et la moyenne de l’autre s’exécute selon les instructions répertoriées. Les performances des deux GPU RTX sont similaires. Le pourcentage de la variance entre les deux GPU RTX est minime et compris dans la plage d’acceptation conformément aux directives MLPerf. Bien que le GPU V100 Volta offre les meilleures performances, les GPU RTX fonctionnent également bien, sauf pour la détection d’objets.

Lors de la publication, le benchmark de classification d’image dans MLPerf échouait avec les GPU RTX en cas d’erreur de convolution. Ce problème devrait être résolu dans une future version de cuDNN.

Resolution

Résumé

Dans ce blog, nous avons abordé les performances des Dell EMC serveur GPU DSS 8440 et des GPU NVIDIA RTX pour les charges applicatives HPC et AI. Les performances des processeurs graphiques RTX sont similaires, mais le GPU RTX 8000 est le meilleur choix pour les applications qui nécessitent une quantité de mémoire supérieure. Pour les charges applicatives à double précision ou les charges applicatives qui nécessitent une bande passante de mémoire élevée Volta V100S et le nouveau GPU NVIDIA A100 est le meilleur choix.

À l’avenir, nous envisageons de fournir une étude des performances sur les GPU RTX avec d’autres applications Precision et une étude d’inférence sur les GPU RTX et A100.


Article Properties


Affected Product

High Performance Computing Solution Resources

Last Published Date

25 Feb 2021

Version

4

Article Type

Solution