Dell EMC DSS8440 -serveren er en 2-sokkel, 4U-server designet til højtydende databehandling, maskin indlæring (ml) og dybfrosne arbejdsbelastninger. Den understøtter forskellige GPU'er, såsom NVIDIA Volta V100S og NVIDIA Tesla T4 intensitets Core GPU'er samt NVIDIA Quadro RTX GPU'er .
(Figur. 1 Dell EMC DSS840-server)
I denne blog vurderer vi ydeevnen for de omkostningseffektive NVIDIA Quadro RTX 6000 og NVIDIA Quadro RTX 8000-GPU'er sammenlignet med den øverste niveau Accelerator V100S GPU ved hjælp af forskellige industristandard benchmarking-værktøjer. Dette omfatter test mod enkelte arbejdsmængder i modsætning til dobbelt præcision. Mens Quadro-serien har eksisteret i lang tid, RTX GPU'er med NVIDIA Turing-arkitektur, der blev lanceret i sen 2018. Specifikationerne i tabel 1 viser, at RTX 8000-GPU'EN er uovertruffen for RTX 6000 med hensyn til større hukommelseskonfiguration. Men RTX 8000-og RTX 6000-GPU'erne har højere strømbehov sammenlignet med V100S-GPU'EN. For arbejdsbelastninger, der kræver en højere hukommelseskapacitet, er RTX 8000 det bedste valg.
Specifikationer | RTX 6000 | RTX 8000 | V100S-32 GB |
---|---|---|---|
Arkitektur | Turing | Volta | |
Hukommelse | 24 GB GDDR6 | 48 GB GDDR6 | 32 GB HBM2 |
Standard clocking-hastighed (MHz) | 1395 | 1245 | |
Maksimal GPU-hastighed (MHz) | 1770 | 1597 | |
CUDA-kerner | 4608 | 5120 | |
FP32 (TFLOPS maksimum) | 16,3 | 16,4 | |
Hukommelsesbåndbredde (GB/s) | 672 | 1134 | |
Strøm | 295 W | 250 W |
Tabel. 1 GPU-specifikationer
Server | DellEMC,PowerEdge, DSS8440 | ||
---|---|---|---|
Processor | 2 x Intel Xeon 6248, 20 °C @ 2,5 GHz | ||
Hukommelse | 24 x 32 GB @ 2933 MT/s (768 GB i alt) | ||
GPU | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S-PCIe |
Storage | 1 x Dell Express flash NVMe 1 TB 2,5 "U. 2 (P4500) | ||
Strømforsyninger | 4 x 2400 W |
Tabel. 2 server konfigurationsoplysninger
BIOS | 2.5.4 |
---|---|
OS: | RHEL 7,6 |
Kerne | 3.10.0-957.el7.x86_64 |
System profil | Ydeevneoptimeret |
CUDA Toolkit CUDA-driver |
10,1 440.33.01 |
Tabel. 3 oplysninger om system firmware
Program | Version |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 opdatering 4 |
LAMMPS | Marts 3 2020 OpenMPI – 4.0.3 |
MLPERF | v 0,6-træning dockingstation 19,03 |
Tabel. 4 applikations oplysninger
LAMMPS er en molekyle-Dynamics-ansøgning, der vedligeholdes af forskere på Sandia nationale laboratorier og Temple University. LAMMPS blev kompileret med KOKKOS-pakken for at køre effektivt på NVIDIA GPU'er. Lennard Jones-datasæt blev brugt til at sammenligne ydeevne, og Timesteps/s er metrikværdi som vist i figur 2:
(Figur. 2 Lennard Jones-graf)
Som angivet i tabel 1 har RTX 6000-og RTX 8000-GPU'er samme antal kerner, enkeltpræcisions ydeevne og GPU-båndbredde, men forskellig GPU-hukommelse. Da begge RTX-GPU'er har en lignende konfiguration, er ydelsen også i samme område. RTX-Gpu'ers skalaen for dette program, og ydeevnen for begge GPU'er er identiske.
Volta V100S GPU-ydeevnen er ca. tre gange hurtigere end Quadro RTX-GPU'er. Hoved faktoren for denne højere ydelse er den større GPU-hukommelsesbåndbredde for V100S-GPU'EN.
HPL er en standard HPCs benchmark, der måler databehandlings ydelsen. Den bruges som reference benchmark af TOP500-listen for at rangere verdens computere over hele verden.
Følgende figur viser ydeevnen for RTX 6000, RTX 8000 og V100S GPU'er vha. DSS 8440-server. Som du kan se, er ydeevnen af RTX-GPU'er betydeligt lavere end V100S-GPU'EN. Det forventes, at HPL udfører en Matrix LU factorization, som primært er Double Precision-flydende punkter.
(Figur. 3 HPL ydeevne med forskellige GPU'er)
Hvis vi sammenligner den teoretiske flydende punkt-ydeevne, dvs. Rpeak af begge GPU'er, ser vi, at V100S GPU-ydelsen er meget højere. Den teoretiske Rpeak-værdi på en enkelt RTX-GPU er ca. 500GFlops. Denne værdi giver mindre ydeevne (Rmax) pr. GPU. Rpeak-værdien for Volta V100S GPU er 8.2 TFlops, hvilket resulterer i en meget højere ydeevne fra hvert kort.
Behovet for industri standardens ydelses benchmark for ML-led for at udvikle MLPerf-pakken. Denne pakke omfatter benchmarks til evaluering af uddannelses-og udlednings ydelse af ML hardware og software. Dette afsnit vedrører kun visning af ydeevnen i GPU'er. Følgende tabel viser de dybe indlærings belastninger, datasæt og destinations kriterier, der bruges til at evaluere GPU'erne.
- | Sætte | Kvalitetsmål | Reference implementerings model |
---|---|---|---|
Billed klassificering | ImageNet (224x224) | 75,9% Top-1 nøjagtighed | Resnet-50 v 1.5 |
Objekt registrering (lys vægt) |
COCO 2017 | 23% kort | SSD-ResNet34 |
Objekt registrering (tung vægt) |
COCO 2017 | 0,377 afkrydsningsfelt minimum KREDITOR- 0,339-maske minimum AP |
Mask R-CNN |
Oversættelse (tilbagevendende) |
WMT engelsk-tysk | 24,0 BLEU | GNMT |
Oversættelse (ikke-tilbagevendende) |
WMT engelsk-tysk | 25,0 BLEU | Transformer |
Styrkelse af indlæring | Ikke til rådighed | Præ-uddannet kontrolpunkt | Mini Go |
Table. 5 MLPerf-datasæt og destinations kriterier (kilde:https://mlperf.org/Training-Overview/#overview )
følgende figur viser tiden for at opfylde kriterierne for både RTX og V100S GPU'er:
(Figur. 4 MLPERF ydeevne)
Resultaterne tages i betragtning, efter at der er udført flere kørsler, bortset af den højeste og laveste værdi og den gennemsnittet af de andre løbere i henhold til de viste retningslinjer. Ydeevnen for begge RTX-GPU'er er ens. Procentsatsen for afvigelse mellem begge RTX-GPU'er er minimal og inden for godkendelses området i henhold til MLPerf-retningslinjerne. Mens Volta V100 GPU giver den bedste ydelse, fungerer RTX-GPU'er også godt, undtagen for benchmark for objekt registrering.
På tidspunktet for udgivelsen mislykkedes system klassificerings benchmarket i MLPerf med RTX GPU'er pga. en convolution-fejl. Dette problem forventes løst i en fremtidig cuDNN-frigivelse.
I denne blog gennemgådes ydeevnen af Dell EMC DSS 8440 GPU-serveren og NVIDIA RTX-GPU'er til HPC og AI-arbejdsbelastninger. Ydeevnen for begge RTX-GPU'er er det samme, men RTX 8000-GPU'EN vil være det bedste valg til programmer, der kræver en højere mængde hukommelse. Til Double Precision arbejdsbelastninger eller arbejdsbelastninger, der kræver høj hukommelsesbåndbredde Volta V100S og den nye NVIDIA A100-GPU er det bedste valg.
I fremtiden planlægger vi at levere en test af ydeevne på RTX-GPU'er med andre enkeltpræcisions programmer og en aflednings undersøgelse på RTX-og A100-GPU'er.