Dell EMC DSS8440 server er en 2 sokkel, 4U-server som er utformet for data maskiner med høy ytelse, maskin opplæring (ml) og dyp opplærings arbeid. Den støtter forskjellige GPU-er som NVIDIA Volta V100S og NVIDIA Tesla T4 - kjerner Core GPU-er, samt NVIDIA Quadro RTX GPU-er .
(Figur. 1 Dell EMC DSS840 server)
I denne bloggen evaluerer vi ytelsen til kostnads besparende NVIDIA Quadro RTX 6000 og NVIDIA Quadro RTX 8000 GPU-er sammenlignet med den øverste skala lag V100S GPU-en ved bruk av ulike benchmark-verktøy for industri standard. Dette inkluderer testing mot enkle arbeids belastninger i forhold til dobbel presisjon. Selv om Quadro-serien har eksistert for lenge, har RTX GPU-er som ble startet med NVIDIA Turing-arkitekturen i sent 2018. Spesifikasjonene i tabell 1 viser at RTX 8000-GPU-en er overordnet RTX 6000 når det gjelder høyere minne konfigurasjon. De RTX 8000 og RTX 6000 GPU-ene har imidlertid høyere strøm behov sammenlignet med V100S GPU-er. For arbeids belastninger som krever høyere minne kapasitet, er RTX 8000 det beste valget.
Spesifikasjoner | RTX 6000 | RTX 8000 | V100S-32 GB |
---|---|---|---|
Arkitektur | Turing | Volta | |
Minne | 24 GB GDDR6 | 48 GB GDDR6 | 32 GB HBM2 |
Standard klokke hastighet (MHz) | 1395 | 1245 | |
Maksimal klokke hastighet på GPU (MHz) | 1770 | 1597 | |
CUDA-kjerner | 4608 | 5120 | |
FP32 (TFLOPS-maksimum) | 16,3 | 16,4 | |
Minne bånd bredde (GB/s) | 672 | 1134 | |
Strøm | 295 W | 250 W |
Table. 1 GPU-spesifikasjoner
Server | DellEMC,PowerEdge, DSS8440 | ||
---|---|---|---|
Prosessor | 2 x Intel Xeon 6248, 20 C ved 2,5 GHz | ||
Minne | 24 x 32 GB ved 2933 MT/s (768 GB totalt) | ||
GRAFIKK | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S-PCIe |
Lagring | 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500) | ||
Strømforsyninger | 4 x 2400 W |
Tabell. 2 detaljer om konfigurasjon av server
BIOS | 2.4.5 |
---|---|
Operativsystem: | RHEL 7,6 |
Kjerne | 3.10.0-957.el7.x86_64 |
System profil | Optimert ytelse |
CUDA Toolkit CUDA-driver |
10,1 440.33.01 |
Tabell. 3 detaljer om systemets FAS tvare
Applikasjon | Versjon |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018-oppdatering 4 |
LAMMPS | Mars 3 2020 OpenMPI – 4.0.3 |
MLPERF | v 0,6-opplæring dokking 19,03 |
Tabell. 4 -applikasjons informasjon
LAMMPS er et Molecular Dynamics-program som vedlikeholdes av forskere ved Sandia nasjonale laboratorier og Temple University. LAMMPS ble kompilert med KOKKOS-pakken for å kjøre effektivt på nVidia GPU-er. Lennard Jensen-DataSet ble brukt til sammenligning av ytelse og Timesteps/s som metrikk som vist i figur 2:
(Figur. 2 Lennard Jensen-graf)
Som oppført i tabell 1, har RTX 6000 og RTX 8000 GPU-er samme antall kjerner, enkel presisjons ytelse og GPU-båndbredde, men forskjellig GPU-minne. Fordi begge RTX GPU-er har en lignende konfigurasjon, er ytelsen også i samme område. RTXe GPU-er og-skala godt for dette programmet, og ytelsen for begge GPU-ene er identisk.
Volta V100S GPU-ytelsen er omtrent tre ganger raskere enn Quadro RTX GPU-er. Nøkkel faktoren for denne høyere ytelsen er den større GPU-minne bånd bredden til den V100S GPU-en.
HPL er en standard HPC benchmark som måler data behandlings ytelsen. Den brukes som en referanse-benchmark av TOP500-listen for å rangere data maskiner over hele verden.
Følgende figur viser ytelsen til RTX 6000, RTX 8000 og V100Se GPU-er som bruker DSS 8440-server. Som du kan se, er ytelsen til de RTX GPU-ene betydelig lavere enn den V100S GPU-en. Dette vil bli forventet fordi HPL utfører en Matrix LU factorization som hovedsakelig er flyt talls operasjoner med dobbel presisjon.
(Figur. 3 HPL-ytelse med forskjellige GPU-er)
Hvis vi sammenligner den teoretiske flytende punkt ytelsen, det vil si Rpeak av begge GPU-ene, ser vi at den V100S GPU-ytelsen er mye høyere. Den teoretiske Rpeak-verdien på én enkelt RTX GPU er omtrent 500GFlops. Denne verdien gir mindre ytelse (Rmax) per GPU. Rpeak-verdien for Volta V100S GPU er 8.2 TFlops, som resulterer i mye høyere ytelse fra hvert kort.
Behovet for ytelses tester for industri standard for ML LED i forbindelse med utviklingen av MLPerf-serien. Denne pakken inkluderer ytelses tester for evaluering av opplæring og inference ytelse på ML-maskin vare og program vare. Denne delen håndterer bare opplærings ytelsen for GPU-er. Følgende tabell viser arbeids belastningene på dyp læring, data sett og mål vilkår som brukes for evaluering av GPU-er.
Verdier | Data sett | Kvalitets mål | Modell for referanse implementering |
---|---|---|---|
Bilde klassifisering | ImageNet (224x224) | 75,9% topp-1 nøyaktighet | Resnet-50 v 1.5 |
Objekt oppdagelse (lys vekt) |
COCOS 2017 | 23% kart | SSD-ResNet34 |
Oppdagelse av objekter (tung vekt) |
COCOS 2017 | 0,377-boks minimum AP 0,339-maske minimum Ap |
Maske R-CNN |
Oversettelse (reaktivering) |
WMT engelsk-tysk | 24,0 BLEU | GNMT |
Oversettelse (ikke oppdatert) |
WMT engelsk-tysk | 25,0 BLEU | Transformator |
Forsterker opplæring | Ikke relevant | Forhånds kvalifisert kontroll punkt | Mini Go |
Table. 5 MLPerf-datasett og mål vilkår (Kilde:https://mlperf.org/Training-Overview/#overview )
følgende figur viser tiden for å oppfylle mål vilkårene for både RTX og V100S GPU-er:
(Figur. 4 MLPERF ytelse)
Resultatene anses å etter at det er utført flere kjøringer, at den høyeste og laveste verdien og gjennomsnittet av de andre kjøres i henhold til de angitte retnings linjene. Ytelsen for både RTX GPU-er er like. Prosent andelen av avviket mellom begge RTX GPU-ene er minimale og innenfor godkjennings intervallet i henhold til MLPerf retnings linjer. Når Volta V100 GPU gir best ytelse, vil RTX-GPU-ene også fungere godt, bortsett fra oppdagelse av objektets ytelses test.
På publikasjonen arbeids tid mislyktes en ytelses test for bilde klassifisering i MLPerf med RTX GPU-er som følge av en overførings feil. Dette problemet er forventet å bli løst i en fremtidig cuDNN-utgivelse.
I denne bloggen har vi diskutert ytelsen til Dell EMC DSS 8440 GPU-server og NVIDIA RTX GPU-er for HPC og AI-arbeids belastninger. Ytelsen for begge RTX GPU-er er lik, men RTX 8000 GPU er imidlertid et best valg for programmer som krever en større mengde minne. For arbeids belastninger med dobbel presisjon, eller arbeids mengder som krever Volta-V100S med høy minne, og de nye NVIDIA A100 GPU-er er best valg.
I fremtiden planlegger vi å tilby en ytelses studie på RTX GPU-er med andre enkelt Precision-programmer og en Inference studie på RTX og A100 GPU-er.