El servidor de Dell EMC DSS8440 es un servidor de 4U de 2 sockets diseñado para la informática de alto rendimiento, el aprendizaje de máquinas (ml) y las cargas de trabajo de aprendizaje profundo. Es compatible con varias GPU, como NVIDIA Volta V100S y NVIDIA Tesla T4 tensor Core GPU, además de GPU NVIDIA Quadro RTX .
(Figura 1 Dell EMC servidor DSS840)
En este blog, evaluamos el rendimiento de las GPU NVIDIA Quadro RTX 6000 y NVIDIA Quadro RTX 8000 en comparación con la GPU del acelerador de nivel superior, mediante el uso de diversas herramientas de análisis estándar del sector. Esto incluye la prueba de cargas de trabajo de precisión única y doble. Aunque la serie Quadro ha existido por un tiempo prolongado, las GPU de RTX con arquitectura NVIDIA Turing se iniciaron después del 2018. Las especificaciones en la tabla 1 muestran que la GPU de RTX 8000 es superior al RTX 6000 en términos de configuración de memoria más alta. Sin embargo, las GPU de RTX 8000 y RTX 6000 tienen mayores necesidades de alimentación en comparación con la GPU de V100S. Para las cargas de trabajo que requieren una mayor capacidad de memoria, RTX 8000 es la mejor opción.
Especificaciones | RTX 6000 | RTX 8000 | V100S: 32 GB |
---|---|---|---|
Arquitectura | Turing | Volta | |
Memoria | GDDR6 DE 24 GB | GDDR6 DE 48 GB | HBM2 DE 32 GB |
Tasa de reloj predeterminada (MHz) | 1395 | 1245 | |
Velocidad máxima del reloj de la GPU (MHz) | 1770 | 1597 | |
Núcleos CUDA | 4608 | 5120 | |
FP32 (máximo de TFLOPS) | 16.3 | 16.4 | |
Ancho de banda de memoria (GB/s) | 672 | 1134 | |
Alimentación | 295 W | 250 W |
Tabla. 1 especificaciones de GPU
Servidor | DellEMC, PowerEdge, DSS8440 | ||
---|---|---|---|
Procesador | 2 x Intel Xeon 6248, 20 C a 2,5 GHz | ||
Memoria | 24 x 32 GB a 2933 MT/s (768 GB en total) | ||
GPU | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S-PCIe |
Almacenamiento | 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500) | ||
Fuentes de alimentación | 4 x 2400 W |
Tabla. 2 detalles de configuración del servidor
BIOS | 2.5.4 |
---|---|
Sistema operativo | RHEL 7.6 |
Kernel | 3.10.0-957.el7.x86_64 |
Perfil del sistema | Rendimiento optimizado |
Kit de herramientas de CUDA Controlador CUDA |
10,1 440.33.01 |
Tabla. 3 detalles del firmware del sistema
Tabla. 4 información de la aplicación
LAMMPS es una aplicación de dinámica molecular que mantiene los investigadores en laboratorios nacionales de Sandia y la Universidad del templo. LAMMPS se compiló con el paquete de KOKKOS para que se ejecute de manera eficiente en las GPU NVIDIA. El conjunto de datos de Lennard Jones se usó para la comparación de rendimiento y Timesteps/s es la métrica, como se muestra en la figura 2:
(Figura 2 , gráfico de Lennard Jones)
Como se indica en la tabla 1, las GPU de RTX 6000 y RTX 8000 tienen el mismo número de núcleos, el rendimiento de una sola precisión y el ancho de banda de la GPU, además de una memoria GPU diferente. Dado que ambas GPU de RTX tienen una configuración similar, el rendimiento también se encuentra en el mismo rango. Las GPU de RTX se escalan bien para esta aplicación y el rendimiento para ambas GPU es idéntico.
El rendimiento de la GPU de Volta V100S es aproximadamente tres veces más rápido que las GPU de Quadro RTX. El factor clave para este mayor rendimiento es el mayor ancho de banda de la memoria GPU de la GPU de V100S.
HPL es un benchmark de HPC estándar que mide el rendimiento de la informática. Se utiliza como un benchmark de referencia en la lista TOP500 para clasificar supercomputadoras en todo el mundo.
En la siguiente figura se muestra el rendimiento de las GPU de RTX 6000, RTX 8000 y V100S mediante el servidor DSS 8440. Como puede ver, el rendimiento de las GPU de RTX es considerablemente menor que la GPU de V100S. Esto es de esperar, ya que HPL ejecuta una factorización de LU de matriz, que es principalmente operaciones de punto flotante de precisión doble.
(Figura. 3 HPL rendimiento con diferentes GPU)
Si comparamos el rendimiento teórico de punto flotante, es decir, Rpeak de ambas GPU, vemos que el rendimiento de la GPU de V100S es mucho mayor. El valor de Rpeak teórico en una sola GPU de RTX es de aproximadamente 500GFlops. Este valor arroja menos rendimiento (Rmax) por GPU. El valor Rpeak para Volta V100S GPU es 8.2 TFlops, lo que da como resultado un rendimiento mucho mayor de cada tarjeta.
La necesidad de los benchmarks de rendimiento estándares del sector para los ML condujo al desarrollo de MLPerf Suite. Esta suite de aplicaciones incluye benchmarks para evaluar la capacitación y el rendimiento de la inferencia de hardware y software en ML. Esta sección solo aborda el rendimiento de capacitación de GPU. En la siguiente tabla se enumeran las cargas de trabajo de aprendizaje exhaustivo, los conjuntos de datos y los criterios de destino que se utilizan para evaluar las GPU.
Desempeño | AuthorData | Destino de calidad | Modelo de implementación de referencia |
---|---|---|---|
Clasificación de imagen | ImageNet (224x224) | 75,9% de la precisión superior: 1 | ResNet-50 v 1.5 |
Detección de objetos (peso ligero) |
COCO 2017 | 23% de mapa | SSD: ResNet34 |
Detección de objetos (peso pesado) |
COCO 2017 | 0,377 de la máscara mínima de PA 0,339 de la caja |
Máscara R-CNN |
Traducción (recurrente) |
WMT inglés alemán | 24,0 BLEU | GNMT |
Traducción (no recurrente) |
WMT inglés alemán | 25,0 BLEU | Transformador |
Refuerzo del aprendizaje | N/A | Punto de comprobación capacitado previamente | Mini-avanzar |
Tabla. 5 conjuntos de datos de MLPerf y criterios de destino (origen:https://mlperf.org/Training-Overview/#overview )
en la siguiente figura se muestra el tiempo que cumple los criterios de destino para las GPU RTX y V100S:
(Figura 4 rendimiento de MLPERF)
Los resultados se consideran después de ejecutar varias ejecuciones, descartando el valor más alto y más bajo, y promediando las otras ejecuciones según las reglas enumeradas. El rendimiento para las GPU de RTX es similar. El porcentaje de variación entre las GPU de RTX es mínimo y se encuentra dentro del rango de aceptación según las reglas de MLPerf. Aunque Volta V100 GPU proporciona el mejor rendimiento, las GPU de RTX también funcionan bien, excepto para el benchmark de detección de objetos.
En el momento de la publicación, el benchmark de clasificación de imagen en MLPerf fallaba con GPU de RTX debido a un error de circunvolución. Se espera que este problema se solucione en una versión futura de cuDNN.
En este blog, analizamos el rendimiento del servidor de GPU de Dell EMC DSS 8440 y las GPU de NVIDIA RTX para las cargas de trabajo de HPC y AI. El rendimiento para las GPU de RTX es similar; sin embargo, la GPU de RTX 8000 sería una mejor opción para las aplicaciones que requieren una mayor cantidad de memoria. Para cargas de trabajo de precisión doble o cargas de trabajo que requieren un ancho de banda de memoria alta de Volta V100S y la nueva GPU de NVIDIA A100 son la mejor opción.
En el futuro, planeamos proporcionar un estudio de rendimiento sobre las GPU de RTX con otras aplicaciones de precisión única y un estudio de interferencia en las GPU de RTX y A100.