Le Dell EMC serveur DSS8440 est un serveur 2 sockets, conçu pour le calcul haute performance, l’apprentissage machine (ml) et des charges applicatives de formation profonde. Il prend en charge plusieurs GPU, telles que NVIDIA Volta V100S et NVIDIA Tesla T4 tensor Core GPU, ainsi que les GPU NVIDIA Quadro RTX .
(Figure 1 Dell EMC serveur DSS840)
Dans ce blog, nous évaluons les performances des GPU NVIDIA Quadro RTX 6000 et NVIDIA Quadro RTX 8000 par rapport au GPU V100S de niveau supérieur à l’aide des outils d’évaluation des normes de l’industrie. Cela inclut les tests par rapport aux charges applicatives à un seul et double précision. Alors que la gamme Quadro a existé pour une longue durée, les GPU RTX avec une architecture NVIDIA Turing lancée en fin de 2018. Les caractéristiques du tableau 1 indiquent que le GPU RTX 8000 est supérieur au RTX 6000 en termes de configuration de mémoire plus élevée. Toutefois, les GPU RTX 8000 et RTX 6000 ont des besoins d’alimentation plus élevés par rapport au GPU V100S. Pour les charges applicatives qui nécessitent une capacité de mémoire supérieure, le RTX 8000 est le meilleur choix.
Spécifications | RTX 6000 | RTX 8000 | V100S-32 GO |
---|---|---|---|
Architecture | Turing | Volta | |
Mémoire | GDDR6 24 GO | 48 GO GDDR6 | 32 GO HBM2 |
Fréquence d’horloge par défaut (MHz) | 1395 | 1245 | |
Fréquence d’horloge maximale du GPU (MHz) | 1770 | 1597 | |
Cœurs CUDA | 4608 | 5 120 | |
FP32 (TFLOPS maximum) | 16,3 | 16,4 | |
Bande passante de mémoire (Gbit/s) | 672 | 1134 | |
Alimentation | 295 W | 250 W |
Tableau 1 : caractéristiques du GPU
Serveur | DellEMC, PowerEdge, DSS8440 | ||
---|---|---|---|
Processeur | 2 x Intel Xeon 6248, 20 C à 2,5 GHz | ||
Mémoire | 24 x 32 Go à 2933 MT/s (768 Go au total) | ||
UNITÉ | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S-PCIe |
Stockage | 1 x Dell Express Flash NVMe 1 to 2,5 "U. 2 (P4500) | ||
Blocs d'alimentation | 4 x 2400 W |
Tableau 2 : détails de la configuration du serveur
BIOS | 2.5.4 |
---|---|
Système d'exploitation | RHEL 7,6 |
Noyau | 3.10.0-957.el7.x86_64 |
Profil système | Performances optimisées |
CUDA Toolkit Pilote CUDA |
10,1 440.33.01 |
Tableau 3 : Détails du micrologiciel du système
Tableau. 4 informations sur l’application
LAMMPS est une application de Dynamics moléculaire qui est gérée par les chercheurs sur Sandia National Laboratories et Temple University. LAMMPS a été compilé avec le package KOKKOS pour fonctionner efficacement sur les GPU NVIDIA. Le DataSet Lennard Jones a été utilisé pour la comparaison des performances et Timesteps/s en tant que Metric, comme indiqué dans la figure 2 :
(Figure. 2 Lennard Jones Graph)
Comme indiqué dans le tableau 1, les GPU RTX 6000 et RTX 8000 ont le même nombre de cœurs, les performances de précision unique et la bande passante GPU, mais une mémoire GPU différente. Étant donné que les deux GPU RTX ont une configuration similaire, les performances se trouvent également dans la même plage. Les GPU RTX évoluent bien pour cette application et les performances des deux GPU sont identiques.
Les performances du GPU V100S Volta sont environ trois fois plus rapides que les GPU RTX Quadro. Le facteur clé de ces performances plus élevées est la plus grande bande passante de mémoire GPU du GPU V100S.
HPL est un benchmark HPC standard qui mesure les performances du calcul. Il est utilisé en tant que référence comparative par la liste TOP500 pour classer les superordinateurs dans le monde entier.
La figure suivante montre les performances des GPU RTX 6000, RTX 8000 et V100S à l’aide du serveur DSS 8440. Comme vous pouvez le voir, les performances des GPU RTX sont beaucoup plus basses que le GPU V100S. Cela devrait être dû au fait que le HPL effectue une factorisation de la matrice de la matrice, qui est principalement des opérations à double précision.
(Figure. 3 performances HPL avec différents GPU)
En comparant les performances théoriques à virgule flottante, autrement dit, Rpeak des deux GPU, nous pouvons constater que les performances du GPU V100S sont bien plus élevées. La valeur Rpeak théorique sur un seul GPU RTX est approximativement 500GFlops. Cette valeur donne moins de performances (Rmax) par GPU. La valeur Rpeak du GPU Volta V100S est de 8.2 TFlops, ce qui permet d’obtenir des performances plus élevées à partir de chaque carte.
La nécessité d’une analyse comparative des performances standard pour les ML a conduit au développement de MLPerf suite. Cette suite comprend des benchmarks pour l’évaluation des performances de formation et d’inférence du matériel et des logiciels en MILLILITREs. Cette section concerne uniquement les performances de formation des GPU. Le tableau suivant répertorie les charges applicatives de formation profonde, les datasets et les critères cibles qui sont utilisés pour l’évaluation des GPU.
Étalonne | VSAM | Objectif de qualité | Modèle d’implémentation de référence |
---|---|---|---|
Classification d’image | ImageNet (224x224) | 75,9% Top 1 : précision | ResNet-50 v 1.5 |
Détection d’objets (poids clair) |
COCO 2017 | Schéma de 23% | Disque SSD-ResNet34 |
Détection d’objets (poids lourd) |
COCO 2017 | 0,377 Box nombre minimum de points d’accès 0,339 minimum de PA |
Masque R-CNN |
Traduction (à jour) |
WMT anglais-allemand | 24,0 BLEU | GNMT |
Traduction (non actualisée) |
WMT anglais-allemand | 25,0 BLEU | Synchro |
Apprentissage de renforcement | Sans objet | Point de contrôle pré-formé | Mini Go |
Tableau. 5 datasets MLPerf et critères cibles (source :https://mlperf.org/Training-overview/#overview )
la figure suivante indique le temps nécessaire pour répondre aux critères cibles pour les GPU RTX et V100S :
(Figure 4 MLPERF performances)
Les résultats sont pris en compte après l’exécution de plusieurs exécutions, en ignorant la valeur la plus élevée et la plus basse, et la moyenne de l’autre s’exécute selon les instructions répertoriées. Les performances des deux GPU RTX sont similaires. Le pourcentage de la variance entre les deux GPU RTX est minime et compris dans la plage d’acceptation conformément aux directives MLPerf. Bien que le GPU V100 Volta offre les meilleures performances, les GPU RTX fonctionnent également bien, sauf pour la détection d’objets.
Lors de la publication, le benchmark de classification d’image dans MLPerf échouait avec les GPU RTX en cas d’erreur de convolution. Ce problème devrait être résolu dans une future version de cuDNN.
Dans ce blog, nous avons abordé les performances des Dell EMC serveur GPU DSS 8440 et des GPU NVIDIA RTX pour les charges applicatives HPC et AI. Les performances des processeurs graphiques RTX sont similaires, mais le GPU RTX 8000 est le meilleur choix pour les applications qui nécessitent une quantité de mémoire supérieure. Pour les charges applicatives à double précision ou les charges applicatives qui nécessitent une bande passante de mémoire élevée Volta V100S et le nouveau GPU NVIDIA A100 est le meilleur choix.
À l’avenir, nous envisageons de fournir une étude des performances sur les GPU RTX avec d’autres applications Precision et une étude d’inférence sur les GPU RTX et A100.