Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Servidor Dell EMC DSS 8440 con tecnología de GPU NVIDIA RTX para cargas de trabajo de HPC y IA

Summary: El servidor de Dell EMC DSS8440 es un servidor de 4U de 2 sockets diseñado para la informática de alto rendimiento, el aprendizaje de máquinas (ML) y las cargas de trabajo de aprendizaje profundo. Este artículo compara el rendimiento de diversas GPU, como NVIDIA Volta V100S y NVIDIA Tesla T4 tensor Core GPU, además de GPU NVIDIA Quadro RTX en este sistema. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

 

Deepthi Cherlopalle y Frank han

 

Dell EMC HPC y el laboratorio de innovación de AI de junio de 2020

 

El servidor de Dell EMC DSS8440 es un servidor de 4U de 2 sockets diseñado para la informática de alto rendimiento, el aprendizaje de máquinas (ml) y las cargas de trabajo de aprendizaje profundo. Es compatible con varias GPU, como NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 y NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 tensor Core GPU, además de GPU NVIDIA Quadro RTXSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Figura 1 Dell EMC servidor DSS840)

En este blog, evaluamos el rendimiento de las GPU NVIDIA Quadro RTX 6000 y NVIDIA Quadro RTX 8000 en comparación con la GPU del acelerador de nivel superior, mediante el uso de diversas herramientas de análisis estándar del sector. Esto incluye la prueba de cargas de trabajo de precisión única y doble. Aunque la serie Quadro ha existido por un tiempo prolongado, las GPU de RTX con arquitectura NVIDIA Turing se iniciaron después del 2018. Las especificaciones en la tabla 1 muestran que la GPU de RTX 8000 es superior al RTX 6000 en términos de configuración de memoria más alta. Sin embargo, las GPU de RTX 8000 y RTX 6000 tienen mayores necesidades de alimentación en comparación con la GPU de V100S. Para las cargas de trabajo que requieren una mayor capacidad de memoria, RTX 8000 es la mejor opción.

Especificaciones RTX 6000 RTX 8000 V100S: 32 GB
Arquitectura Turing Volta
Memoria GDDR6 DE 24 GB GDDR6 DE 48 GB HBM2 DE 32 GB
Tasa de reloj predeterminada (MHz) 1395 1245
Velocidad máxima del reloj de la GPU (MHz) 1770 1597
Núcleos CUDA 4608 5120
FP32 (máximo de TFLOPS) 16.3 16.4
Ancho de banda de memoria (GB/s) 672 1134
Alimentación 295 W 250 W

Tabla. 1 especificaciones de GPU

Servidor DellEMC, PowerEdge, DSS8440
Procesador 2 x Intel Xeon 6248, 20 C a 2,5 GHz
Memoria 24 x 32 GB a 2933 MT/s (768 GB en total)
GPU  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Almacenamiento 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Fuentes de alimentación 4 x 2400 W

Tabla. 2 detalles de configuración del servidor

BIOS 2.5.4
Sistema operativo RHEL 7.6
Kernel 3.10.0-957.el7.x86_64
Perfil del sistema Rendimiento optimizado
Kit de herramientas
de CUDA Controlador CUDA
10,1
440.33.01

Tabla. 3 detalles del firmware del sistema

Aplicación Versión
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 actualización 4
LAMMPS OpenMPI de marzo de 3 2020
– 4.0.3
MLPERF SLN321776_en_US__1iC_External_Link_BD_v1 capacitación
de v 0.6 Docker 19,03

Tabla. 4 información de la aplicación

Cause

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 es una aplicación de dinámica molecular que mantiene los investigadores en laboratorios nacionales de Sandia y la Universidad del templo. LAMMPS se compiló con el paquete de KOKKOSSLN321776_en_US__6iC_External_Link_BD_v1 para que se ejecute de manera eficiente en las GPU NVIDIA. El conjunto de datos de Lennard Jones se usó para la comparación de rendimiento y Timesteps/s es la métrica, como se muestra en la figura 2:

SLN321776_en_US__8image (18427)

(Figura 2 , gráfico de Lennard Jones)

 Como se indica en la tabla 1, las GPU de RTX 6000 y RTX 8000 tienen el mismo número de núcleos, el rendimiento de una sola precisión y el ancho de banda de la GPU, además de una memoria GPU diferente. Dado que ambas GPU de RTX tienen una configuración similar, el rendimiento también se encuentra en el mismo rango. Las GPU de RTX se escalan bien para esta aplicación y el rendimiento para ambas GPU es idéntico.

El rendimiento de la GPU de Volta V100S es aproximadamente tres veces más rápido que las GPU de Quadro RTX. El factor clave para este mayor rendimiento es el mayor ancho de banda de la memoria GPU de la GPU de V100S.


High Performance Linpack (HPL)

HPL es un benchmark de HPC estándar que mide el rendimiento de la informática. Se utiliza como un benchmark de referencia en la lista TOP500 para clasificar supercomputadoras en todo el mundo.

En la siguiente figura se muestra el rendimiento de las GPU de RTX 6000, RTX 8000 y V100S mediante el servidor DSS 8440. Como puede ver, el rendimiento de las GPU de RTX es considerablemente menor que la GPU de V100S. Esto es de esperar, ya que HPL ejecuta una factorización de LU de matriz, que es principalmente operaciones de punto flotante de precisión doble.

SLN321776_en_US__9image (18428)

(Figura. 3 HPL rendimiento con diferentes GPU)

Si comparamos el rendimiento teórico de punto flotante, es decir, Rpeak de ambas GPU, vemos que el rendimiento de la GPU de V100S es mucho mayor. El valor de Rpeak teórico en una sola GPU de RTX es de aproximadamente 500GFlops. Este valor arroja menos rendimiento (Rmax) por GPU. El valor Rpeak para Volta V100S GPU es 8.2 TFlops, lo que da como resultado un rendimiento mucho mayor de cada tarjeta.


MLPerf

La necesidad de los benchmarks de rendimiento estándares del sector para los ML condujo al desarrollo de MLPerf Suite. Esta suite de aplicaciones incluye benchmarks para evaluar la capacitación y el rendimiento de la inferencia de hardware y software en ML. Esta sección solo aborda el rendimiento de capacitación de GPU. En la siguiente tabla se enumeran las cargas de trabajo de aprendizaje exhaustivo, los conjuntos de datos y los criterios de destino que se utilizan para evaluar las GPU.

Desempeño AuthorData Destino de calidad Modelo de implementación de referencia
Clasificación de imagen ImageNet (224x224) 75,9% de la precisión superior: 1 ResNet-50 v 1.5
Detección de objetos
(peso ligero)
COCO 2017 23% de mapa SSD: ResNet34
Detección de objetos
(peso pesado)
COCO 2017 0,377 de la máscara mínima de PA 0,339 de la caja
Máscara R-CNN
Traducción
(recurrente)
WMT inglés alemán 24,0 BLEU GNMT
Traducción
(no recurrente)
 WMT inglés alemán  25,0 BLEU Transformador
Refuerzo del aprendizaje N/A Punto de comprobación capacitado previamente Mini-avanzar

Tabla. 5 conjuntos de datos de MLPerf y criterios de destino (origen:https://mlperf.org/Training-Overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

en la siguiente figura se muestra el tiempo que cumple los criterios de destino para las GPU RTX y V100S:

SLN321776_en_US__11image (18441)
(Figura 4 rendimiento de MLPERF)

Los resultados se consideran después de ejecutar varias ejecuciones, descartando el valor más alto y más bajo, y promediando las otras ejecuciones según las reglas enumeradas. El rendimiento para las GPU de RTX es similar. El porcentaje de variación entre las GPU de RTX es mínimo y se encuentra dentro del rango de aceptación según las reglas de MLPerf. Aunque Volta V100 GPU proporciona el mejor rendimiento, las GPU de RTX también funcionan bien, excepto para el benchmark de detección de objetos.

En el momento de la publicación, el benchmark de clasificación de imagen en MLPerf fallaba con GPU de RTX debido a un error de circunvolución. Se espera que este problema se solucione en una versión futura de cuDNN.

Resolution

Resumen

En este blog, analizamos el rendimiento del servidor de GPU de Dell EMC DSS 8440 y las GPU de NVIDIA RTX para las cargas de trabajo de HPC y AI. El rendimiento para las GPU de RTX es similar; sin embargo, la GPU de RTX 8000 sería una mejor opción para las aplicaciones que requieren una mayor cantidad de memoria. Para cargas de trabajo de precisión doble o cargas de trabajo que requieren un ancho de banda de memoria alta de Volta V100S y la nueva GPU de NVIDIA A100 son la mejor opción.

En el futuro, planeamos proporcionar un estudio de rendimiento sobre las GPU de RTX con otras aplicaciones de precisión única y un estudio de interferencia en las GPU de RTX y A100.


Affected Products

High Performance Computing Solution Resources
Article Properties
Article Number: 000132886
Article Type: Solution
Last Modified: 25 Feb 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.