Performances de Deep Learning sur les processeurs graphiques T4 avec des points de référence MLPerf

Summary: Informations relatives à l’architecture Turing, dernière architecture de processeur graphique de NVIDIA après l’architecture Volta, et le nouveau T4 basé sur l’architecture Turing. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Article rédigé par Rengan Xu, Frank Han et Quy Ta du laboratoire d’innovation en matière d’IA et HPC en mars 2019

Cause

Resolution

L’architecture Turing est la dernière architecture de processeur graphique de NVIDIA après l’architecture Volta, et le nouveau T4 est basé sur l’architecture Turing. Il a été conçu pour le calcul haute performance (HPC), le Deep Learning et l’inférence, l’apprentissage automatique, l’analytique des données et les graphiques. Cet article de blog quantifie les performances de formation au Deep Learning des processeurs graphiques T4 sur le serveur Dell EMC PowerEdge R740 avec la suite de points de référence MLPerf. Les performances MLPerf sur T4 seront également comparées à celles du V100-PCIe sur le même serveur avec le même logiciel.

Retour au début

Présentation

Le Dell EMC PowerEdge R740 est un serveur au format rack 2U à 2 sockets. Le système comprend des processeurs Intel Skylake, jusqu’à 24 barrettes DIMM et jusqu’à 3 processeurs graphiques V100-PCIe double largeur ou 4 processeurs graphiques T4 simple largeur dans 16 logements PCIe 3.0. Le T4 est le processeur graphique qui utilise la dernière architecture Turing de NVIDIA. Les différences de spécification des processeurs graphiques T4 et V100-PCIe sont répertoriées dans le Tableau 1. MLPerf a été choisi pour évaluer les performances du T4 en termes de formation au Deep Learning. MLPerf est un outil d’analyse comparative qui a été assemblé par un groupe diversifié issus de l’université et du secteur, notamment Google, LargeDu, Intel, AMD, Harvard et Stanford, etc., pour mesurer la vitesse et les performances des logiciels et du matériel d’apprentissage automatique. La version initiale est v0.5 et couvre les implémentations de modèles dans différents domaines d’apprentissage automatique, y compris la classification des images, la détection et la segmentation des objets, la traduction automatique et l’apprentissage par renforcement. Le récapitulatif des points de référence MLPerf utilisés pour cette évaluation est présenté dans le Tableau 2. L’implémentation de ResNet-50 TensorFlow à partir de la soumission de Google a été utilisée, et toutes les implémentations des autres modèles issus de la soumission de NVIDIA ont été utilisées. Les points de référence ont été exécutés sur matériel vierge sans conteneur. Le Tableau 3 répertorie le matériel et les logiciels utilisés pour l’évaluation. Les performances T4 avec les points de référence MLPerf sont comparées à celles du V100-PCIe.

	Tesla V100-PCIe	Tesla T4
Architecture	Volta	Turing
Cœurs CUDA	5 120	2 560
Cœurs Tensor	640	320
Capacité de calcul	7.0	7.5
Fréquence d’horloge du processeur graphique	1 245 MHz	585 MHz
Horloge Boost	1 380 MHz	1 590 MHz
Type de mémoire	HBM2	GDDR6
Taille de la mémoire	16 Go/32 Go	16 Go
Bande passante	900 Go/s	320 Go/s
Largeur du logement	Double logement	Simple logement
Simple précision (FP32)	14 TFLOPS	8.1 TFLOPS
Précision mixte (FP16/FP32)	112 TFLOPS	65 TFLOPS
Double précision (FP64)	7 TFLOPS	254,4 GFLOPS
TDP	250 W	70 W

Tableau 1 : Comparaison entre le T4 et le V100-PCIe

	Classification des images	Classification des objets	Segmentation des instances d’objets	Traduction (récurrente)	Traduction (non récurrente)	Recommandation
Données	ImageNet	COCO	COCO	WMT E-G	WMT E-G	MovieLens-20M
Taille des données	144GB	20GB	20GB	37GB	1.3GB	306MB
Modèle	ResNet-50 v1.5	SSD (Single-Stage Detector)	Mask-R-CNN	GNMT	Transformer	FCN
Cadre	TensorFlow	PyTorch	PyTorch	PyTorch	PyTorch	PyTorch

Tableau 2 : Points de référence MLF utilisés dans l’évaluation

Système d’exploitation et firmware
Plateforme	PowerEdge R740
Processeur	2 processeurs Intel Xeon Gold 6136 à 3 0 Ghz (SkyLake)
Mémoire	384 Go DDR4 @ 2 666 MHz
Stockage	Lustre 782 To
PROCESSEUR GRAPHIQUE	T4, V100-PCIe
Système d’exploitation	Red Hat® Enterprise Linux® 7.5 x86_64
Linux Kernal	3.10.0-693.el7.x86_64
BIOS	1.6.12
Deep Learning
Compilateur CUDA et pilote GPU	CUDA 10.0.130 (410.66)
CUDNN	7.4.1
NCCL	2.3.7
TensorFlow	nightly-gpu-dev20190130
PyTorch	1.0.0
MLPerf	V0.5

Tableau 3 : Détails de la configuration matérielle et des logiciels

Retour au début

Évaluation des performances

La Figure 1 présente les résultats des performances de MLPerf sur T4 et V100-PCIe sur un serveur PowerEdge R740. Six points de référence MLPerf sont inclus. Pour chaque point de référence, la formation de bout en bout des modèles a été effectuée afin d’atteindre la précision du modèle cible définie par le comité MLPerf. Le temps de formation, en minutes, a été enregistré pour chaque point de référence. Ces résultats permettent de tirer les conclusions suivantes :

Les modèles ResNet-50 v1.5, SSD et Mask-R-CNN évoluent correctement avec un nombre croissant de processeurs graphiques. Pour ResNet-50 v1.5, le V100-PCIe est 3,6 fois plus rapide que le T4. Pour les disques SSD, le V100-PCI est 3,3 à 3,4 fois plus rapide que le T4. Pour Mask-R-CNN, le V100-PCIe est 2,2 à 2,7 fois plus rapide que le T4. Avec le même nombre de processeurs graphiques, chaque modèle utilise quasiment le même nombre d’époques pour converger pour les T4 et V100-PCIe.
Pour le modèle GNMT, la vitesse super linéaire a été observée en présence de plusieurs processeurs graphiques T4. Cette vitesse est multipliée par 3,1 avec deux T4 et par 10,4 avec quatre T4. Cela est dû au fait que la convergence du modèle est affectée par le seed aléatoire utilisé pour initialiser les données de formation et le poids du réseau neuronal. Quel que soit le nombre de processeurs graphiques utilisés, avec des seeds aléatoires différents, le modèle peut nécessiter un nombre différent d’époques pour converger. Au cours de cette expérience, le modèle a utilisé 12, 7, 5 et 4 époques pour converger contre 1, 2, 3 et 4 pour le T4. Le modèle a utilisé 16, 12 et 9 époques pour converger contre 1, 2 et 3 pour le V100-PCIe. Le nombre d’époques étant sensiblement différent, même avec le même nombre de processeurs graphiques T4 et V100, les performances ne peuvent pas faire l’objet d’une comparaison directe. Dans ce scénario, la mesure de débit correspond à une comparaison juste, car elle ne dépend pas du seed aléatoire. La Figure 2 compare le débit des systèmes T4 et V100-PCIe. Avec le même nombre de processeurs graphiques, le V100-PCIe est 2,5 à 3,6 fois plus rapide que le T4.
Les modèles NCF et Transformer se heurtent au même problème que le modèle GNMT. En ce qui concerne le modèle NCF, la taille du jeu de données est limitée et le modèle converge rapidement et par conséquent, ce problème n’est pas évident à remarquer dans la figure des résultats. Le modèle Transformer présente le même problème lorsqu’un processeur graphique est utilisé, car ce modèle a nécessité 12 époques pour converger avec un T4 contre seulement 8 époques avec un V100-PCIe. Avec deux processeurs graphiques ou plus, le modèle a nécessité 4 époques pour converger, quel que soit le nombre ou le type de processeurs graphiques utilisés. Le V100-PCIe est 2,6 à 2,8 fois plus rapide que le T4 dans ces cas-là.

SLN316560_en_US__1image(9291) SLN316560_en_US__2image(9292)

SLN316560_en_US__3image(9293) SLN316560_en_US__4image(9294)

SLN316560_en_US__5image(9295) SLN316560_en_US__6image(9296)

Figure 1 : Résultats MLPerf sur T4 et V100-PCIe

SLN316560_en_US__7image(9289)

Figure 2 : Comparaison du débit du modèle GNMT

Retour au début

Conclusions et travaux futurs

Dans ce blog, nous avons évalué les performances des processeurs graphiques T4 sur le serveur Dell EMC PowerEdge R740 à l’aide de divers points de référence MLPerf. Les performances du T4 ont été comparées à celles du V100-PCIe en utilisant le même serveur et le même logiciel. Globalement, le V100-PCIe se révèle 2,2 à 3,6 fois plus rapide que le T4 selon les caractéristiques de chaque point de référence. Il a été observé que certains modèles sont stables, quelles que soient les valeurs de seed aléatoire utilisées, mais que d’autres, GNMT, NCF et Transformer notamment, sont considérablement affectés par le seed aléatoire. À l’avenir, nous ajusterons les hyper-paramètres pour permettre la convergence des modèles instables avec moins d’époques. Nous exécuterons également MLPerf sur un plus grand nombre de processeurs graphiques et de nœuds afin d’évaluer l’évolutivité de ces modèles sur les serveurs PowerEdge.

*Exclusion de responsabilité : Dans le cadre de ce comparatif, quatre processeurs graphiques T4 ont été évalués dans un serveur Dell EMC PowerEdge R740. Actuellement, le serveur PowerEdge R740 prend officiellement en charge un maximum de trois processeurs graphiques T4 dans 16 logements PCIe.

Retour au début

Affected Products

High Performance Computing Solution Resources

Article Number: 000132094

Article Type: Solution

Last Modified: 24 Sep 2021

Version: 3

Check if your device is covered by Support Services.

Performances de Deep Learning sur les processeurs graphiques T4 avec des points de référence MLPerf

Summary: Informations relatives à l’architecture Turing, dernière architecture de processeur graphique de NVIDIA après l’architecture Volta, et le nouveau T4 basé sur l’architecture Turing. ...

Symptoms

Cause

Resolution

Sommaire :

Résumé

Présentation

Évaluation des performances

Conclusions et travaux futurs

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Performances de Deep Learning sur les processeurs graphiques T4 avec des points de référence MLPerf

Summary: Informations relatives à l’architecture Turing, dernière architecture de processeur graphique de NVIDIA après l’architecture Volta, et le nouveau T4 basé sur l’architecture Turing. ... View More View Less

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

Sommaire :

Résumé

Présentation

Évaluation des performances

Conclusions et travaux futurs

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Summary: Informations relatives à l’architecture Turing, dernière architecture de processeur graphique de NVIDIA après l’architecture Volta, et le nouveau T4 basé sur l’architecture Turing. ...