Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Performances de Deep Learning sur les processeurs graphiques T4 avec des points de référence MLPerf

Summary: Informations relatives à l’architecture Turing, dernière architecture de processeur graphique de NVIDIA après l’architecture Volta, et le nouveau T4 basé sur l’architecture Turing. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Article rédigé par Rengan Xu, Frank Han et Quy Ta du laboratoire d’innovation en matière d’IA et HPC en mars 2019

Cause

-

Resolution


Sommaire :

  1. Résumé
  2. Présentation
  3. Évaluation des performances
  4. Conclusions et travaux futurs

 

Résumé

 

L’architecture Turing est la dernière architecture de processeur graphique de NVIDIA après l’architecture Volta, et le nouveau T4 est basé sur l’architecture Turing. Il a été conçu pour le calcul haute performance (HPC), le Deep Learning et l’inférence, l’apprentissage automatique, l’analytique des données et les graphiques. Cet article de blog quantifie les performances de formation au Deep Learning des processeurs graphiques T4 sur le serveur Dell EMC PowerEdge R740 avec la suite de points de référence MLPerf. Les performances MLPerf sur T4 seront également comparées à celles du V100-PCIe sur le même serveur avec le même logiciel.


Retour au début


 

Présentation

 

Le Dell EMC PowerEdge R740 est un serveur au format rack 2U à 2 sockets. Le système comprend des processeurs Intel Skylake, jusqu’à 24 barrettes DIMM et jusqu’à 3 processeurs graphiques V100-PCIe double largeur ou 4 processeurs graphiques T4 simple largeur dans 16 logements PCIe 3.0. Le T4 est le processeur graphique qui utilise la dernière architecture Turing de NVIDIA. Les différences de spécification des processeurs graphiques T4 et V100-PCIe sont répertoriées dans le Tableau 1. MLPerf a été choisi pour évaluer les performances du T4 en termes de formation au Deep Learning. MLPerf est un outil d’analyse comparative qui a été assemblé par un groupe diversifié issus de l’université et du secteur, notamment Google, LargeDu, Intel, AMD, Harvard et Stanford, etc., pour mesurer la vitesse et les performances des logiciels et du matériel d’apprentissage automatique. La version initiale est v0.5 et couvre les implémentations de modèles dans différents domaines d’apprentissage automatique, y compris la classification des images, la détection et la segmentation des objets, la traduction automatique et l’apprentissage par renforcement. Le récapitulatif des points de référence MLPerf utilisés pour cette évaluation est présenté dans le Tableau 2. L’implémentation de ResNet-50 TensorFlow à partir de la soumission de Google a été utilisée, et toutes les implémentations des autres modèles issus de la soumission de NVIDIA ont été utilisées. Les points de référence ont été exécutés sur matériel vierge sans conteneur. Le Tableau 3 répertorie le matériel et les logiciels utilisés pour l’évaluation. Les performances T4 avec les points de référence MLPerf sont comparées à celles du V100-PCIe.

  Tesla V100-PCIe Tesla T4
Architecture Volta Turing
Cœurs CUDA 5 120 2 560
Cœurs Tensor 640 320
Capacité de calcul 7.0 7.5
Fréquence d’horloge du processeur graphique 1 245 MHz 585 MHz
Horloge Boost 1 380 MHz 1 590 MHz
Type de mémoire HBM2 GDDR6
Taille de la mémoire 16 Go/32 Go 16 Go
Bande passante 900 Go/s 320 Go/s
Largeur du logement Double logement Simple logement
Simple précision (FP32) 14 TFLOPS 8.1 TFLOPS
Précision mixte (FP16/FP32) 112 TFLOPS 65 TFLOPS
Double précision (FP64) 7 TFLOPS 254,4 GFLOPS
TDP 250 W 70 W

Tableau 1 : Comparaison entre le T4 et le V100-PCIe

  Classification des images Classification des objets Segmentation des instances d’objets Traduction (récurrente) Traduction (non récurrente) Recommandation
Données ImageNet COCO COCO WMT E-G WMT E-G MovieLens-20M
Taille des données 144GB 20GB 20GB 37GB 1.3GB 306MB
Modèle ResNet-50 v1.5 SSD (Single-Stage Detector) Mask-R-CNN GNMT Transformer FCN
Cadre TensorFlow PyTorch PyTorch PyTorch PyTorch PyTorch

Tableau 2 : Points de référence MLF utilisés dans l’évaluation

Plateforme PowerEdge R740
Processeur 2 processeurs Intel Xeon Gold 6136 à 3 0 Ghz (SkyLake)
Mémoire 384 Go DDR4 @ 2 666 MHz
Stockage Lustre 782 To
PROCESSEUR GRAPHIQUE T4, V100-PCIe
Système d’exploitation et firmware
Système d’exploitation Red Hat® Enterprise Linux® 7.5 x86_64
Linux Kernal 3.10.0-693.el7.x86_64
BIOS 1.6.12
Deep Learning
Compilateur CUDA et pilote GPU CUDA 10.0.130 (410.66)
CUDNN 7.4.1
NCCL 2.3.7
TensorFlow nightly-gpu-dev20190130
PyTorch 1.0.0
MLPerf V0.5

Tableau 3 : Détails de la configuration matérielle et des logiciels


Retour au début


 

Évaluation des performances

 

La Figure 1 présente les résultats des performances de MLPerf sur T4 et V100-PCIe sur un serveur PowerEdge R740. Six points de référence MLPerf sont inclus. Pour chaque point de référence, la formation de bout en bout des modèles a été effectuée afin d’atteindre la précision du modèle cible définie par le comité MLPerf. Le temps de formation, en minutes, a été enregistré pour chaque point de référence. Ces résultats permettent de tirer les conclusions suivantes :

  • Les modèles ResNet-50 v1.5, SSD et Mask-R-CNN évoluent correctement avec un nombre croissant de processeurs graphiques. Pour ResNet-50 v1.5, le V100-PCIe est 3,6 fois plus rapide que le T4. Pour les disques SSD, le V100-PCI est 3,3 à 3,4 fois plus rapide que le T4. Pour Mask-R-CNN, le V100-PCIe est 2,2 à 2,7 fois plus rapide que le T4. Avec le même nombre de processeurs graphiques, chaque modèle utilise quasiment le même nombre d’époques pour converger pour les T4 et V100-PCIe.

  • Pour le modèle GNMT, la vitesse super linéaire a été observée en présence de plusieurs processeurs graphiques T4. Cette vitesse est multipliée par 3,1 avec deux T4 et par 10,4 avec quatre T4. Cela est dû au fait que la convergence du modèle est affectée par le seed aléatoire utilisé pour initialiser les données de formation et le poids du réseau neuronal. Quel que soit le nombre de processeurs graphiques utilisés, avec des seeds aléatoires différents, le modèle peut nécessiter un nombre différent d’époques pour converger. Au cours de cette expérience, le modèle a utilisé 12, 7, 5 et 4 époques pour converger contre 1, 2, 3 et 4 pour le T4. Le modèle a utilisé 16, 12 et 9 époques pour converger contre 1, 2 et 3 pour le V100-PCIe. Le nombre d’époques étant sensiblement différent, même avec le même nombre de processeurs graphiques T4 et V100, les performances ne peuvent pas faire l’objet d’une comparaison directe. Dans ce scénario, la mesure de débit correspond à une comparaison juste, car elle ne dépend pas du seed aléatoire.  La Figure 2 compare le débit des systèmes T4 et V100-PCIe. Avec le même nombre de processeurs graphiques, le V100-PCIe est 2,5 à 3,6 fois plus rapide que le T4.

  • Les modèles NCF et Transformer se heurtent au même problème que le modèle GNMT. En ce qui concerne le modèle NCF, la taille du jeu de données est limitée et le modèle converge rapidement et par conséquent, ce problème n’est pas évident à remarquer dans la figure des résultats. Le modèle Transformer présente le même problème lorsqu’un processeur graphique est utilisé, car ce modèle a nécessité 12 époques pour converger avec un T4 contre seulement 8 époques avec un V100-PCIe. Avec deux processeurs graphiques ou plus, le modèle a nécessité 4 époques pour converger, quel que soit le nombre ou le type de processeurs graphiques utilisés. Le V100-PCIe est 2,6 à 2,8 fois plus rapide que le T4 dans ces cas-là.

SLN316560_en_US__1image(9291) SLN316560_en_US__2image(9292)

SLN316560_en_US__3image(9293) SLN316560_en_US__4image(9294)

SLN316560_en_US__5image(9295) SLN316560_en_US__6image(9296)

Figure 1 : Résultats MLPerf sur T4 et V100-PCIe

SLN316560_en_US__7image(9289)

Figure 2 : Comparaison du débit du modèle GNMT


Retour au début


 

Conclusions et travaux futurs

 

Dans ce blog, nous avons évalué les performances des processeurs graphiques T4 sur le serveur Dell EMC PowerEdge R740 à l’aide de divers points de référence MLPerf. Les performances du T4 ont été comparées à celles du V100-PCIe en utilisant le même serveur et le même logiciel. Globalement, le V100-PCIe se révèle 2,2 à 3,6 fois plus rapide que le T4 selon les caractéristiques de chaque point de référence. Il a été observé que certains modèles sont stables, quelles que soient les valeurs de seed aléatoire utilisées, mais que d’autres, GNMT, NCF et Transformer notamment, sont considérablement affectés par le seed aléatoire. À l’avenir, nous ajusterons les hyper-paramètres pour permettre la convergence des modèles instables avec moins d’époques. Nous exécuterons également MLPerf sur un plus grand nombre de processeurs graphiques et de nœuds afin d’évaluer l’évolutivité de ces modèles sur les serveurs PowerEdge.

*Exclusion de responsabilité : Dans le cadre de ce comparatif, quatre processeurs graphiques T4 ont été évalués dans un serveur Dell EMC PowerEdge R740. Actuellement, le serveur PowerEdge R740 prend officiellement en charge un maximum de trois processeurs graphiques T4 dans 16 logements PCIe.

 


Retour au début


Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000132094
Article Type: Solution
Last Modified: 24 Sep 2021
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.