Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

使用 MLPerf 基准的 T4 GPU 的深度学习性能

Summary: 有关 Turing 体系结构的信息,这是 NVIDIA 在 Volta 体系结构之后的最新 GPU 体系结构,新 T4 基于 Turing 体系结构。

This article applies to   This article does not apply to 

Symptoms

HPC 和 AI 创新实验室的 Rengan Xu、Frank Han 和 Quy Ta 于 2019 年 3 月撰写的文章

Cause

Resolution


目录:

  1. 摘要
  2. 概览
  3. 性能评估
  4. 结论和未来的工作

 

摘要

 

Turing 体系结构是 NVIDIA 在 Volta 体系结构之后的最新 GPU 体系结构,新的 T4 基于 Turing 体系结构。它专为高性能计算 (HPC)、深度学习训练和推理、机器学习、数据分析和图形而设计。此博客将使用 MLPerf 基准套件量化 Dell EMC PowerEdge R740 服务器上 T4 GPU 的深度学习训练性能。并将 T4 上的 MLPerf 性能与具有相同软件的相同服务器上的 V100-PCIe 进行比较。


返回页首


 

概览

 

Dell EMC PowerEdge R740 是一款双路 2U 机架式服务器。该系统在 x16 PCIe 3.0 插槽中配备英特尔 Skylake 处理器、多达 24 个 DIMM 和多达 3 个双宽 V100-PCIe 或 4 个单宽 T4 GPU。T4 是使用 NVIDIA 最新 Turing 体系结构的 GPU。表 1 中列出了 T4 和 V100-PCIe GPU 的规格差异。我们选择了 MLPerf 来评估 T4 在深度学习训练中的性能。MLPerf 是一个基准测试工具,由来自学术界和业界的不同群体共同创建(包括 Google、百度、英特尔、AMD、哈佛和斯坦福等),用于衡量机器学习软件和硬件的速度和性能。初始发布的版本是 v0.5,它涵盖了不同机器学习领域的模型实现,包括图像分类、对象检测和分割、机器翻译和强化学习。表 2 中显示了用于此评估的 MLPerf 基准测试的摘要。使用了 Google 提交的 ResNet-50 TensorFlow 实现,并使用了 NVIDIA 提交的所有其他模型实现。所有基准均在裸机上运行,不使用容器。表 3 列出了用于评估的硬件和软件。使用 MLPerf 基准进行测试的 T4 性能将与 V100-PCIe 进行比较。

  Tesla V100-PCIe Tesla T4
体系结构 Volta Turing
CUDA 核心 5120 2560
Tensor 核心 640 320
计算能力 7.0 7.5
GPU 核心频率 1245 MHz 585 MHz
动态提升频率 1380 MHz 1590 MHz
内存类型 HBM2 GDDR6
内存大小 16GB/32GB 16GB
带宽 900 GB/s 320 GB/s
插槽宽度 双插槽 单插槽
单精度 (FP32) 14 TFLOPS 8.1 TFLOPS
混合精度 (FP16/FP32) 112 TFLOPS 65 TFLOPS
双精度 (FP64) 7 TFLOPS 254.4 GFLOPS
TDP 250 W 70 W

表 1:T4 与 V100-PCIe 之间的比较

  图像分类 对象分类 对象实例分割 翻译(循环) 翻译(非循环) 建议
数据 ImageNet COCO COCO WMT E-G WMT E-G MovieLens-20M
数据大小 144GB 20GB 20GB 37GB 1.3GB 306MB
型号 ResNet-50 v1.5 单级检测器 (SSD) Mask-R-CNN GNMT Transformer NCF
框架 TensorFlow PyTorch PyTorch PyTorch PyTorch PyTorch

表 2:评估中使用的 MLF Perf 基准

平台 PowerEdge R740
CPU 2 个英特尔至强 Gold 6136 @3.0GHz (SkyLake)
内存 384 GB DDR4 @ 2666MHz
存储 782 TB Lustre
GPU T4、V100-PCIe
操作系统和固件
操作系统 Red Hat® Enterprise Linux® 7.5 x86_64
Linux 内核 3.10.0-693.el7.x86_64
(BIOS) 1.6.12
深度学习相关
CUDA 编译器和 GPU 驱动程序 CUDA 10.0.130 (410.66)
CUDNN 7.4.1
NCCL 2.3.7
TensorFlow nightly-gpu-dev20190130
PyTorch 1.0.0
MLPerf V0.5

表 3:硬件配置和软件详细信息


返回页首


 

性能评估

 

图 1 显示了 MLPerf 在 PowerEdge R740 服务器上的 T4 和 V100-PCIe 上的性能结果。包括了 MLPerf 的六个基准。对于每个基准,执行了端到端的模型训练以达到 MLPerf 委员会定义的目标模型精度。对于每个基准都记录了训练时间(以分钟为单位)。可以根据这些结果得出以下结论:

  • ResNet-50 v1.5、SSD 和 Mask-R-CNN 模型可随着 GPU 数量的增加很好地扩展。对于 ResNet-50 v1.5,V100-PCIe 的速度是 T4 的 3.6 倍。对于 SSD,V100-PCI 的速度是 T4 的 3.3 倍至 3.4 倍。对于 Mask-R-CNN,V100-PCIe 的速度是 T4 的 2.2 倍至 2.7 倍。使用相同数量的 GPU 时,对于 T4 和 V100-PCIe,每个模型几乎需要相同数量的时期来收敛。

  • 对于 GNMT 模型,当使用更多 T4 GPU 时,观察到超线性加速。与一个 T4 相比,使用两个 T4 时的加速为 3.1 倍,使用四个 T4 时的加速为 10.4 倍。这是因为模型收敛受随机种子的影响,随机种子用于训练数据随机排列和神经网络权重初始化。无论使用多少个 GPU,使用不同的随机种子时,模型可能需要不同数量的时期来收敛。在此实验中,在使用 1、2、3 和 4 个 T4 时,模型分别需要 12、7、5 和 4 个时期来收敛。在使用 1、2 和 3 个 V100-PCIe 时,模型分别需要 16、12 和 9 个时期来收敛。由于即使 T4 和 V100 GPU 数量相同,时期的数量也明显不同,因此无法直接比较性能。在这种情况下,吞吐量指标是一个公平的比较,因为它不依赖于随机种子。  图 2 显示了 T4 和 V100-PCIe 的吞吐量对比。在具有相同数量 GPU 的情况下,V100-PCIe 的速度是 T4 的 2.5 倍至 3.6 倍。

  • NCF 模型和 Transformer 模型具有与 GNMT 相同的问题。对于 NCF 模型,数据集大小较小,并且该模型的收敛时间不长;因此,此问题在结果图表中不明显。当使用一个 GPU 时,Transformer 模型具有相同的问题,因为使用一个 T4 时,模型需要 12 个时期来收敛,但使用一个 V100-PCIe 时,只需要 8 个时期来收敛。当使用两个或更多 GPU 时,无论使用多少个 GPU 或使用哪种 GPU 类型,模型均需要 4 个时期来收敛。在这些情况下,V100-PCIe 的速度是 T4 的 2.6 倍至 2.8 倍。

SLN316560_en_US__1image(9291) SLN316560_en_US__2image(9292)

SLN316560_en_US__3image(9293) SLN316560_en_US__4image(9294)

SLN316560_en_US__5image(9295) SLN316560_en_US__6image(9296)

图 1:T4 和 V100-PCIe 上的 MLPerf 结果

SLN316560_en_US__7image(9289)

图 2:GNMT 模型的吞吐量比较


返回页首


 

结论和未来的工作

 

在此博客中,我们使用各种 MLPerf 基准评估了 Dell EMC PowerEdge R740 服务器上的 T4 GPU 的性能。并将 T4 的性能与使用相同服务器和软件的 V100-PCIe 进行了比较。总体而言,V100-PCIe 的速度是 T4 的 2.2 倍至 3.6 倍,具体取决于每个基准的特征。一个观察结果是,无论使用什么随机种子值,某些模型都是稳定的,但其他模型(包括 GNMT、NCF 和 Transformer)受到随机种子的严重影响。在将来的工作中,我们将对超参数进行微调,使不稳定的模型需要更少的时期完成收敛。我们还将在更多 GPU 和更多节点上运行 MLPerf,以评估这些模型在 PowerEdge 服务器上的可扩展性。

*免责声明:为了进行基准测试,对 Dell EMC PowerEdge R740 中的四个 T4 GPU 进行了评估。当前,根据官方声明,PowerEdge R740 在 x16 PCIe 插槽中最多支持三个 T4。

 


返回页首


Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000132094
Article Type: Solution
Last Modified: 24 Sep 2021
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.