DELL EMC DSS8440服务器是一个2插槽、4u 服务器,专为高性能计算、机器学习(ML)和深入学习工作负载而设计。它支持各种 Gpu,例如 NVIDIA Volta V100S 和 nvidia Tesla T4 TENSOR Core gpu 以及nvidia quadro RTX gpu 。
(图. 1 Dell EMC DSS840 服务器)
在本博客中,我们通过使用各种行业标准的基准测试工具来评估经济高效的 NVIDIA Quadro RTX 6000 和 NVIDIA Quadro RTX 8000 Gpu 的性能。这包括针对单个和双精度工作负载进行测试。虽然 Quadro 系列存在很长的时间,但在2018中启动了带有 NVIDIA 开启体系结构的 RTX Gpu。表1中的规格显示了在内存配置更高的情况下,RTX 8000 GPU 优于 RTX 6000。但是,与 V100S GPU 相比,RTX 8000 和 RTX 6000 Gpu 具有更高的功率需求。对于需要更高内存容量的工作负载,RTX 8000 是更好的选择。
规格 | RTX 6000 | RTX 8000 | V100S-32 GB |
---|---|---|---|
体系结构 | Turing | Volta | |
内存 | 24 GB GDDR6 | 48 GB GDDR6 | 32 GB HBM2 |
默认时钟速率(MHz) | 1395 | 1245 | |
GPU 最大时钟速率(MHz) | 1770 | 1597 | |
CUDA 核心 | 4608 | 5120 | |
FP32 (TFLOPS 最大值) | 16.3 | 16.4 | |
内存带宽(GB/s) | 672 | 1134 | |
电源 | 295 W | 250 W |
表 1 GPU 规格
服务器 | DellEMC,PowerEdge, DSS8440 | ||
---|---|---|---|
处理器 | 2 x 英特尔至强6248,20 C @ 2.5 GHz | ||
内存 | 24 x 32 GB @ 2933 MT/s (总共 768 GB) | ||
GPU | 8个 Quadro RTX 6000 | 8个 Quadro RTX 8000 | 8个 Volta V100S-PCIe |
存储器 | 1 x Dell Express 闪存 NVMe 1 TB 2.5 "U. 2 (P4500) | ||
电源设备 | 4 x 2400 W |
表. 2 服务器配置详细信息
BIOS | 2.5.4 |
---|---|
OS | RHEL 7.6 |
内核 | 3.10.0-957.el7.x86_64 |
系统配置文件 | 性能已优化 |
CUDA 工具包 CUDA 驱动程序 |
10.1 440.33.01 |
表 3 系统固件详细信息
应用程序 | 版本 |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 更新4 |
LAMMPS | 3 2020 年3月 OpenMPI –4.0。3 |
MLPERF | v 0.6 培训 docker 19.03 |
表. 4 应用程序信息
LAMMPS是由研究人员在 Sandia 国内实验室和 Temple 大学维护的 Molecular Dynamics 应用程序。LAMMPS 使用KOKKOS 程序包 进行了编译,以便在 NVIDIA gpu 上有效运行。Lennard _ 数据集用于性能比较,Timesteps/s 是图2中所示的指标:
(图. 2 Lennard
如表1所示,RTX 6000 和 RTX 8000 Gpu 具有相同数量的核心、单精度性能和 GPU 带宽,但 GPU 内存不同。由于两个 RTX Gpu 都具有类似的配置,因此性能也在相同的范围内。RTX Gpu 适合此应用程序,并且两个 Gpu 的性能完全相同。
Volta V100S GPU 性能大约快三倍于 Quadro RTX Gpu。此更高性能的关键因素是 V100S GPU 的 GPU 内存带宽越高。
HPL 是用于衡量计算性能的标准 HPC 基准。它用作 TOP500 列表的参考基准,以在全球范围内排名 supercomputers。
下图显示了使用 DSS 8440 服务器的 RTX 6000、RTX 8000 和 V100S Gpu 的性能。正如您所见,RTX Gpu 的性能显著低于 V100S GPU。这将成为预期,因为 HPL 将执行主要为双精度浮点操作的矩阵 LU factorization。
(图 3 HPL 具有不同 Gpu 的性能)
如果比较理论上的浮点性能(即,两个 Gpu 的 Rpeak),则会看到 V100S GPU 的性能更高。单个 RTX GPU 上的理论 Rpeak 值约为500GFlops。对于每个 GPU,此值将产生较少的性能(Rmax)。Volta V100S GPU 的 Rpeak 值为 8.2 TFlops,这可从每个卡中获得更高的性能。
对于 ML led 开发 MLPerf suite 的行业标准性能基准的需求。此套件包括评估 ML 硬件和软件的培训和推理性能的基准。本部分仅解决 Gpu 的培训性能。下表列出了用于计算 Gpu 的深层学习工作负载、数据集和目标条件。
测试 | Dataset | 质量目标 | 参考实施模式 |
---|---|---|---|
映像分类 | ImageNet (224x224) | 75.9% 前1准确性 | Resnet-50 v 1。5 |
对象检测 (光线) |
COCO 2017 | 23% 图 | SSD-ResNet34 |
对象检测 (密集) |
COCO 2017 | 0.377 框最小 AP 0.339 掩码最小 ap |
Mask R-CNN |
翻译 (重复性) |
WMT 英语-德语 | 24.0 BLEU | GNMT |
翻译 (非重复性) |
WMT 英语-德语 | 25.0 BLEU | 转换 |
强化学习 | 不适用 | 经过预先培训的检查点 | 小型 Go |
表 5 MLPerf 数据集和目标条件(源:https://mlperf.org/training-overview/#overview )
下图显示满足 RTX 和 V100S gpu 的目标条件的时间:
(图. 4 MLPERF 性能)
在执行多个运行,丢弃最高和最低的值,并根据列出的指导准则求出其他运行的结果。两个 RTX Gpu 的性能相似。两个 RTX Gpu 之间的差异百分比非常小,并且根据 MLPerf 原则在验收范围内。虽然 Volta V100 GPU 可提供最佳性能,但除了对象检测基准以外,RTX Gpu 也能更好地执行。
在发布时,由于发生了卷积错误,MLPerf 中的映像分类基准会因 RTX Gpu 而失败。预计将在未来的 cuDNN 版本中修复此问题。
在本博客中,我们讨论了 Dell EMC DSS 8440 GPU 服务器和 NVIDIA RTX Gpu 的性能,以用于 HPC 和 AI 工作负载。两个 RTX Gpu 的性能相似,但是,对于需要较大内存量的应用程序而言,RTX 8000 GPU 是最佳选择。对于双精度工作负载或需要高内存带宽的工作负载,Volta V100S 和新 NVIDIA A100 GPU 是最佳选择。
将来,我们计划在 RTX Gpu 上针对其他单精度应用程序和对 RTX 和 A100 Gpu 的推理调查进行性能分析。