L’architecture Turing est la dernière architecture de processeur graphique de NVIDIA après l’architecture Volta, et le nouveau T4 est basé sur l’architecture Turing. Il a été conçu pour le calcul haute performance (HPC), le Deep Learning et l’inférence, l’apprentissage automatique, l’analytique des données et les graphiques. Cet article de blog quantifie les performances de formation au Deep Learning des processeurs graphiques T4 sur le serveur Dell EMC PowerEdge R740 avec la suite de points de référence MLPerf. Les performances MLPerf sur T4 seront également comparées à celles du V100-PCIe sur le même serveur avec le même logiciel.
Le Dell EMC PowerEdge R740 est un serveur au format rack 2U à 2 sockets. Le système comprend des processeurs Intel Skylake, jusqu’à 24 barrettes DIMM et jusqu’à 3 processeurs graphiques V100-PCIe double largeur ou 4 processeurs graphiques T4 simple largeur dans 16 logements PCIe 3.0. Le T4 est le processeur graphique qui utilise la dernière architecture Turing de NVIDIA. Les différences de spécification des processeurs graphiques T4 et V100-PCIe sont répertoriées dans le Tableau 1. MLPerf a été choisi pour évaluer les performances du T4 en termes de formation au Deep Learning. MLPerf est un outil d’analyse comparative qui a été assemblé par un groupe diversifié issus de l’université et du secteur, notamment Google, LargeDu, Intel, AMD, Harvard et Stanford, etc., pour mesurer la vitesse et les performances des logiciels et du matériel d’apprentissage automatique. La version initiale est v0.5 et couvre les implémentations de modèles dans différents domaines d’apprentissage automatique, y compris la classification des images, la détection et la segmentation des objets, la traduction automatique et l’apprentissage par renforcement. Le récapitulatif des points de référence MLPerf utilisés pour cette évaluation est présenté dans le Tableau 2. L’implémentation de ResNet-50 TensorFlow à partir de la soumission de Google a été utilisée, et toutes les implémentations des autres modèles issus de la soumission de NVIDIA ont été utilisées. Les points de référence ont été exécutés sur matériel vierge sans conteneur. Le Tableau 3 répertorie le matériel et les logiciels utilisés pour l’évaluation. Les performances T4 avec les points de référence MLPerf sont comparées à celles du V100-PCIe.
Tesla V100-PCIe | Tesla T4 | |
---|---|---|
Architecture | Volta | Turing |
Cœurs CUDA | 5 120 | 2 560 |
Cœurs Tensor | 640 | 320 |
Capacité de calcul | 7.0 | 7.5 |
Fréquence d’horloge du processeur graphique | 1 245 MHz | 585 MHz |
Horloge Boost | 1 380 MHz | 1 590 MHz |
Type de mémoire | HBM2 | GDDR6 |
Taille de la mémoire | 16 Go/32 Go | 16 Go |
Bande passante | 900 Go/s | 320 Go/s |
Largeur du logement | Double logement | Simple logement |
Simple précision (FP32) | 14 TFLOPS | 8.1 TFLOPS |
Précision mixte (FP16/FP32) | 112 TFLOPS | 65 TFLOPS |
Double précision (FP64) | 7 TFLOPS | 254,4 GFLOPS |
TDP | 250 W | 70 W |
Tableau 1 : Comparaison entre le T4 et le V100-PCIe
Classification des images | Classification des objets | Segmentation des instances d’objets | Traduction (récurrente) | Traduction (non récurrente) | Recommandation | |
---|---|---|---|---|---|---|
Données | ImageNet | COCO | COCO | WMT E-G | WMT E-G | MovieLens-20M |
Taille des données | 144GB | 20GB | 20GB | 37GB | 1.3GB | 306MB |
Modèle | ResNet-50 v1.5 | SSD (Single-Stage Detector) | Mask-R-CNN | GNMT | Transformer | FCN |
Cadre | TensorFlow | PyTorch | PyTorch | PyTorch | PyTorch | PyTorch |
Tableau 2 : Points de référence MLF utilisés dans l’évaluation
Plateforme | PowerEdge R740 |
---|---|
Processeur | 2 processeurs Intel Xeon Gold 6136 à 3 0 Ghz (SkyLake) |
Mémoire | 384 Go DDR4 @ 2 666 MHz |
Stockage | Lustre 782 To |
PROCESSEUR GRAPHIQUE | T4, V100-PCIe |
Système d’exploitation et firmware | |
Système d’exploitation | Red Hat® Enterprise Linux® 7.5 x86_64 |
Linux Kernal | 3.10.0-693.el7.x86_64 |
BIOS | 1.6.12 |
Deep Learning | |
Compilateur CUDA et pilote GPU | CUDA 10.0.130 (410.66) |
CUDNN | 7.4.1 |
NCCL | 2.3.7 |
TensorFlow | nightly-gpu-dev20190130 |
PyTorch | 1.0.0 |
MLPerf | V0.5 |
Tableau 3 : Détails de la configuration matérielle et des logiciels
La Figure 1 présente les résultats des performances de MLPerf sur T4 et V100-PCIe sur un serveur PowerEdge R740. Six points de référence MLPerf sont inclus. Pour chaque point de référence, la formation de bout en bout des modèles a été effectuée afin d’atteindre la précision du modèle cible définie par le comité MLPerf. Le temps de formation, en minutes, a été enregistré pour chaque point de référence. Ces résultats permettent de tirer les conclusions suivantes :
Les modèles ResNet-50 v1.5, SSD et Mask-R-CNN évoluent correctement avec un nombre croissant de processeurs graphiques. Pour ResNet-50 v1.5, le V100-PCIe est 3,6 fois plus rapide que le T4. Pour les disques SSD, le V100-PCI est 3,3 à 3,4 fois plus rapide que le T4. Pour Mask-R-CNN, le V100-PCIe est 2,2 à 2,7 fois plus rapide que le T4. Avec le même nombre de processeurs graphiques, chaque modèle utilise quasiment le même nombre d’époques pour converger pour les T4 et V100-PCIe.
Pour le modèle GNMT, la vitesse super linéaire a été observée en présence de plusieurs processeurs graphiques T4. Cette vitesse est multipliée par 3,1 avec deux T4 et par 10,4 avec quatre T4. Cela est dû au fait que la convergence du modèle est affectée par le seed aléatoire utilisé pour initialiser les données de formation et le poids du réseau neuronal. Quel que soit le nombre de processeurs graphiques utilisés, avec des seeds aléatoires différents, le modèle peut nécessiter un nombre différent d’époques pour converger. Au cours de cette expérience, le modèle a utilisé 12, 7, 5 et 4 époques pour converger contre 1, 2, 3 et 4 pour le T4. Le modèle a utilisé 16, 12 et 9 époques pour converger contre 1, 2 et 3 pour le V100-PCIe. Le nombre d’époques étant sensiblement différent, même avec le même nombre de processeurs graphiques T4 et V100, les performances ne peuvent pas faire l’objet d’une comparaison directe. Dans ce scénario, la mesure de débit correspond à une comparaison juste, car elle ne dépend pas du seed aléatoire. La Figure 2 compare le débit des systèmes T4 et V100-PCIe. Avec le même nombre de processeurs graphiques, le V100-PCIe est 2,5 à 3,6 fois plus rapide que le T4.
Les modèles NCF et Transformer se heurtent au même problème que le modèle GNMT. En ce qui concerne le modèle NCF, la taille du jeu de données est limitée et le modèle converge rapidement et par conséquent, ce problème n’est pas évident à remarquer dans la figure des résultats. Le modèle Transformer présente le même problème lorsqu’un processeur graphique est utilisé, car ce modèle a nécessité 12 époques pour converger avec un T4 contre seulement 8 époques avec un V100-PCIe. Avec deux processeurs graphiques ou plus, le modèle a nécessité 4 époques pour converger, quel que soit le nombre ou le type de processeurs graphiques utilisés. Le V100-PCIe est 2,6 à 2,8 fois plus rapide que le T4 dans ces cas-là.
Figure 1 : Résultats MLPerf sur T4 et V100-PCIe
Figure 2 : Comparaison du débit du modèle GNMT
Dans ce blog, nous avons évalué les performances des processeurs graphiques T4 sur le serveur Dell EMC PowerEdge R740 à l’aide de divers points de référence MLPerf. Les performances du T4 ont été comparées à celles du V100-PCIe en utilisant le même serveur et le même logiciel. Globalement, le V100-PCIe se révèle 2,2 à 3,6 fois plus rapide que le T4 selon les caractéristiques de chaque point de référence. Il a été observé que certains modèles sont stables, quelles que soient les valeurs de seed aléatoire utilisées, mais que d’autres, GNMT, NCF et Transformer notamment, sont considérablement affectés par le seed aléatoire. À l’avenir, nous ajusterons les hyper-paramètres pour permettre la convergence des modèles instables avec moins d’époques. Nous exécuterons également MLPerf sur un plus grand nombre de processeurs graphiques et de nœuds afin d’évaluer l’évolutivité de ces modèles sur les serveurs PowerEdge.
*Exclusion de responsabilité : Dans le cadre de ce comparatif, quatre processeurs graphiques T4 ont été évalués dans un serveur Dell EMC PowerEdge R740. Actuellement, le serveur PowerEdge R740 prend officiellement en charge un maximum de trois processeurs graphiques T4 dans 16 logements PCIe.