Omitir para ir al contenido principal
  • Hacer pedidos rápida y fácilmente
  • Ver pedidos y realizar seguimiento al estado del envío
  • Cree y acceda a una lista de sus productos
  • Administre sus sitios, productos y contactos de nivel de producto de Dell EMC con Administración de la empresa.

Dell EMC DSS 8440-server drevet af NVIDIA RTX GPU'er til HPC og AI-arbejdsbelastninger

Resumen: Dell EMC DSS8440-serveren er en 2-sokkel, 4U-server designet til højtydende databehandling, maskin indlæring (ML) og dybfrosne arbejdsbelastninger. Denne artikel sammenligner ydeevnen af forskellige GPU'er, f. eks. NVIDIA Volta V100S og NVIDIA Tesla T4 Intensitets Core GPU'er samt NVIDIA Quadro RTX GPU'er i dette system. ...

Es posible que este artículo se traduzca automáticamente. Si tiene comentarios sobre su calidad, háganoslo saber mediante el formulario en la parte inferior de esta página.

Contenido del artículo


Síntomas

 

Deepthi Cherlopalle og Henrik han

 

Dell EMC HPC og AI-innovations laboratoriet 2020. juni

 

Dell EMC DSS8440 -serveren er en 2-sokkel, 4U-server designet til højtydende databehandling, maskin indlæring (ml) og dybfrosne arbejdsbelastninger. Den understøtter forskellige GPU'er, såsom NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 og NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 intensitets Core GPU'er samt NVIDIA Quadro RTX GPU'erSLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Figur. 1 Dell EMC DSS840-server)

I denne blog vurderer vi ydeevnen for de omkostningseffektive NVIDIA Quadro RTX 6000 og NVIDIA Quadro RTX 8000-GPU'er sammenlignet med den øverste niveau Accelerator V100S GPU ved hjælp af forskellige industristandard benchmarking-værktøjer. Dette omfatter test mod enkelte arbejdsmængder i modsætning til dobbelt præcision. Mens Quadro-serien har eksisteret i lang tid, RTX GPU'er med NVIDIA Turing-arkitektur, der blev lanceret i sen 2018. Specifikationerne i tabel 1 viser, at RTX 8000-GPU'EN er uovertruffen for RTX 6000 med hensyn til større hukommelseskonfiguration. Men RTX 8000-og RTX 6000-GPU'erne har højere strømbehov sammenlignet med V100S-GPU'EN. For arbejdsbelastninger, der kræver en højere hukommelseskapacitet, er RTX 8000 det bedste valg.

Specifikationer RTX 6000 RTX 8000 V100S-32 GB
Arkitektur Turing Volta
Hukommelse 24 GB GDDR6 48 GB GDDR6 32 GB HBM2
Standard clocking-hastighed (MHz) 1395 1245
Maksimal GPU-hastighed (MHz) 1770 1597
CUDA-kerner 4608 5120
FP32 (TFLOPS maksimum) 16,3 16,4
Hukommelsesbåndbredde (GB/s) 672 1134
Strøm 295 W 250 W

Tabel. 1 GPU-specifikationer

Server DellEMC,PowerEdge, DSS8440
Processor 2 x Intel Xeon 6248, 20 °C @ 2,5 GHz
Hukommelse 24 x 32 GB @ 2933 MT/s (768 GB i alt)
GPU  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Storage 1 x Dell Express flash NVMe 1 TB 2,5 "U. 2 (P4500)
Strømforsyninger 4 x 2400 W

Tabel. 2 server konfigurationsoplysninger

BIOS 2.5.4
OS: RHEL 7,6
Kerne 3.10.0-957.el7.x86_64
System profil Ydeevneoptimeret
CUDA Toolkit
CUDA-driver
10,1
440.33.01

Tabel. 3 oplysninger om system firmware

Program Version
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel MKL 2018 opdatering 4
LAMMPS Marts 3 2020
OpenMPI – 4.0.3
MLPERF v 0,6-træningSLN321776_en_US__1iC_External_Link_BD_v1
dockingstation 19,03

Tabel. 4 applikations oplysninger

Causa

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 er en molekyle-Dynamics-ansøgning, der vedligeholdes af forskere på Sandia nationale laboratorier og Temple University. LAMMPS blev kompileret med KOKKOS-pakkenSLN321776_en_US__6iC_External_Link_BD_v1 for at køre effektivt på NVIDIA GPU'er. Lennard Jones-datasæt blev brugt til at sammenligne ydeevne, og Timesteps/s er metrikværdi som vist i figur 2:

SLN321776_en_US__8image (18427)

(Figur. 2 Lennard Jones-graf)

 Som angivet i tabel 1 har RTX 6000-og RTX 8000-GPU'er samme antal kerner, enkeltpræcisions ydeevne og GPU-båndbredde, men forskellig GPU-hukommelse. Da begge RTX-GPU'er har en lignende konfiguration, er ydelsen også i samme område. RTX-Gpu'ers skalaen for dette program, og ydeevnen for begge GPU'er er identiske.

Volta V100S GPU-ydeevnen er ca. tre gange hurtigere end Quadro RTX-GPU'er. Hoved faktoren for denne højere ydelse er den større GPU-hukommelsesbåndbredde for V100S-GPU'EN.


High Performance Linpack (HPL)

HPL er en standard HPCs benchmark, der måler databehandlings ydelsen. Den bruges som reference benchmark af TOP500-listen for at rangere verdens computere over hele verden.

Følgende figur viser ydeevnen for RTX 6000, RTX 8000 og V100S GPU'er vha. DSS 8440-server. Som du kan se, er ydeevnen af RTX-GPU'er betydeligt lavere end V100S-GPU'EN. Det forventes, at HPL udfører en Matrix LU factorization, som primært er Double Precision-flydende punkter.

SLN321776_en_US__9image (18428)

(Figur. 3 HPL ydeevne med forskellige GPU'er)

Hvis vi sammenligner den teoretiske flydende punkt-ydeevne, dvs. Rpeak af begge GPU'er, ser vi, at V100S GPU-ydelsen er meget højere. Den teoretiske Rpeak-værdi på en enkelt RTX-GPU er ca. 500GFlops. Denne værdi giver mindre ydeevne (Rmax) pr. GPU. Rpeak-værdien for Volta V100S GPU er 8.2 TFlops, hvilket resulterer i en meget højere ydeevne fra hvert kort.


MLPerf

Behovet for industri standardens ydelses benchmark for ML-led for at udvikle MLPerf-pakken. Denne pakke omfatter benchmarks til evaluering af uddannelses-og udlednings ydelse af ML hardware og software. Dette afsnit vedrører kun visning af ydeevnen i GPU'er. Følgende tabel viser de dybe indlærings belastninger, datasæt og destinations kriterier, der bruges til at evaluere GPU'erne.

- Sætte Kvalitetsmål Reference implementerings model
Billed klassificering ImageNet (224x224) 75,9% Top-1 nøjagtighed Resnet-50 v 1.5
Objekt registrering
(lys vægt)
COCO 2017 23% kort SSD-ResNet34
Objekt registrering
(tung vægt)
COCO 2017 0,377 afkrydsningsfelt minimum KREDITOR-
0,339-maske minimum AP
Mask R-CNN
Oversættelse
(tilbagevendende)
WMT engelsk-tysk 24,0 BLEU GNMT
Oversættelse
(ikke-tilbagevendende)
 WMT engelsk-tysk  25,0 BLEU Transformer
Styrkelse af indlæring Ikke til rådighed Præ-uddannet kontrolpunkt Mini Go

Table. 5 MLPerf-datasæt og destinations kriterier (kilde:https://mlperf.org/Training-Overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

følgende figur viser tiden for at opfylde kriterierne for både RTX og V100S GPU'er:

SLN321776_en_US__11image (18441)
(Figur. 4 MLPERF ydeevne)

Resultaterne tages i betragtning, efter at der er udført flere kørsler, bortset af den højeste og laveste værdi og den gennemsnittet af de andre løbere i henhold til de viste retningslinjer. Ydeevnen for begge RTX-GPU'er er ens. Procentsatsen for afvigelse mellem begge RTX-GPU'er er minimal og inden for godkendelses området i henhold til MLPerf-retningslinjerne. Mens Volta V100 GPU giver den bedste ydelse, fungerer RTX-GPU'er også godt, undtagen for benchmark for objekt registrering.

På tidspunktet for udgivelsen mislykkedes system klassificerings benchmarket i MLPerf med RTX GPU'er pga. en convolution-fejl. Dette problem forventes løst i en fremtidig cuDNN-frigivelse.

Resolución

Overblik

I denne blog gennemgådes ydeevnen af Dell EMC DSS 8440 GPU-serveren og NVIDIA RTX-GPU'er til HPC og AI-arbejdsbelastninger. Ydeevnen for begge RTX-GPU'er er det samme, men RTX 8000-GPU'EN vil være det bedste valg til programmer, der kræver en højere mængde hukommelse. Til Double Precision arbejdsbelastninger eller arbejdsbelastninger, der kræver høj hukommelsesbåndbredde Volta V100S og den nye NVIDIA A100-GPU er det bedste valg.

I fremtiden planlægger vi at levere en test af ydeevne på RTX-GPU'er med andre enkeltpræcisions programmer og en aflednings undersøgelse på RTX-og A100-GPU'er.


Propiedades del artículo


Producto comprometido

High Performance Computing Solution Resources

Fecha de la última publicación

25 feb 2021

Versión

4

Tipo de artículo

Solution