De Dell EMC DSS8440 -server is een 4U-server met 2 sockets die ontworpen is voor High Performance Computing, machines Learning (ml) en diep leer werk. Het ondersteunt diverse Gpu's, zoals NVIDIA Volta V100S en Nvidia Tesla T4 TENSOR core gpu's en NVIDIA Quadro RTX gpu's .
(Figuur. 1 Dell EMC DSS840-server)
In deze blog evalueren we de prestaties van de rendabele NVIDIA Quadro RTX 6000 en de NVIDIA Quadro RTX 8000-Gpu's vergeleken met de bovenlaag versneller V100S GPU met behulp van verschillende industriestandaard benchmarking tools. Dit omvat het testen tegen de werklast van enkele VS nauwkeurigheid. Hoewel de Quadro-serie een lange tijd heeft bevonden, RTX Gpu's met NVIDIA Turing-architectuur gelanceerd in de eind 2018. De specificaties in tabel 1 tonen aan dat de RTX 8000-GPU zich boven de RTX 6000 in termen van een hogere geheugenconfiguratie bevindt. De RTX 8000-en RTX 6000-Gpu's hebben echter hogere stroom behoeften dan de V100S GPU. Voor werklasten die een hogere geheugencapaciteit vereisen, is de RTX 8000 de beste keuze.
Specificaties | RTX 6000 | RTX 8000 | V100S-32 GB |
---|---|---|---|
Architectuur | Turing | Volta | |
Geheugen | 24 GB GDDR6 | 48 GB GDDR6 | 32 GB HBM2 |
Standaard kloksnelheid (MHz) | 1395 | 1245 | |
Maximale kloksnelheid GPU (MHz) | 1770 | 1597 | |
CUDA-kernen | 4608 | 5120 | |
FP32 (TFLOPS maximum) | 16,3 | 16,4 | |
Geheugenbandbreedte (GB/s) | 672 | 1134 | |
Voeding | 295 W | 250 W |
Tabel. 1 GPU-specificaties
Server | DellEMC, PowerEdge, DSS8440 | ||
---|---|---|---|
Processor | 2 x Intel Xeon 6248, 20 C bij 2,5 GHz | ||
Geheugen | 24 x 32 GB bij 2933 MT/s (totaal 768 GB) | ||
GPU | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S-PCIe |
Storage | 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500) | ||
Voedingen | 4 x 2400 W |
Tabel. 2 configuratiegegevens van server
BIOS | 2.5.4 |
---|---|
BESTURINGSSYSTEEM | RHEL 7,6 |
Kern | 3.10.0-957.el7.x86_64 |
Systeemprofiel | Prestaties geoptimaliseerd |
CUDA Toolkit CUDA-stuurprogramma |
10,1 440.33.01 |
Tabel. 3 Details systeem firmware
Applicatie | Versie |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel mkl 2018-update 4 |
LAMMPS | Maart 3 2020 openmpi-4.0.3 |
MLPERF | v 0,6 training docker 19,03 |
Tabel. 4 toepassingsinformatie
LAMMPS is een moleculaire Dynamics-toepassing die wordt onderhouden door onderzoekers op Sandia National laboratoria en Temple University. LAMMPS is gecompileerd met het KOKKOS-pakket om efficiënt op NVIDIA-gpu's te werken. Lennard Jansen-dataset wordt gebruikt voor de prestatie vergelijking en timesteps/s is de metric zoals wordt weergegeven in afbeelding 2:
(Afbeelding) 2 Lennard Jansen-grafiek)
Zoals vermeld in tabel 1, hebben de RTX 6000 en RTX 8000 hetzelfde aantal kernen, enkele precisie prestatie en GPU-bandbreedte maar ander GPU-geheugen. Omdat beide RTX-Gpu's een vergelijkbare configuratie hebben, is de werking ook in hetzelfde bereik. RTX GPU schaalt goed voor deze toepassing en de prestaties voor beide Gpu's zijn identiek.
De prestaties van de Volta V100S GPU is ongeveer drie keer sneller dan de Quadro RTX Gpu's. De sleutel factor voor deze hogere prestaties is de grotere GPU-geheugenbandbreedte van de V100S-GPU.
HPL is een standaard HPC benchmarktest waarmee de prestaties van de computer worden gemeten. Dit wordt gebruikt als referentie benchmark van de TOP500-lijst om supercomputeren overal ter wereld te rangschikken.
De volgende afbeelding toont de prestaties van de RTX 6000, RTX 8000 en V100S-Gpu's met behulp van de DSS 8440-server. Zoals u ziet kunnen de prestaties van de RTX-Gpu's aanzienlijk lager zijn dan de V100S-GPU. Dit is te verwachten omdat de HPL een matrix LU-factorization uitvoert. Dit is voornamelijk dubbele precisie drijvende punt bewerkingen.
(Figuur. 3 HPL prestaties met verschillende gpu's)
Als we de theoretische drijvende-komma prestaties vergelijken, dat wil zeggen, Rpeak van beide Gpu's, zien we dat de prestaties van de V100S GPU veel hoger zijn. De theoretische Rpeak-waarde op een enkele RTX-GPU is ongeveer 500GFlops. Deze waarde levert minder prestatie (Rmax) per GPU op. De Rpeak-waarde voor Volta V100S GPU is 8.2 TFlops, wat leidt tot veel hogere prestaties van elke kaart.
De behoefte aan industriestandaard benchmarks voor de prestaties van ML leidde tot de ontwikkeling van het MLPerf-pakket. Deze suite omvat benchmarks voor het evalueren van trainingen en het afleiden van de prestaties van ML-hardware en-software. In dit gedeelte worden alleen de trainings prestaties van Gpu's geadresseerd. In de volgende tabel vindt u een lijst met de diepgaande werkbelastingen, datasets en doel criteria die worden gebruikt voor het evalueren van de Gpu's.
Ijkpunt | Dataset | Kwaliteits doel | Referentie-implementatie model |
---|---|---|---|
Afbeeldings classificatie | ImageNet (224x224) | 75,9% hoogst-1 nauwkeurigheid | ResNet-50 v 1.5 |
Object detectie (lichtgewicht) |
COCO 2017 | 23% kaart | SSD-ResNet34 |
Object detectie (zwaar gewicht) |
COCO 2017 | 0,377 doos minimaal AP 0,339-masker minimaal AP |
Masker R-CNN |
Vertaling (terugcourant) |
WMT Engels-Duits | 24,0 BLEU | GNMT |
Vertaling (niet-recurrent) |
WMT Engels-Duits | 25,0 BLEU | Transformator |
Versterking van het leerproces | N.v.t. | Vooraf getraind controlepunt | Mini-go |
Tabel. 5 MLPerf datasets en doel criteria (Bron:https://mlperf.org/training-overview/#overview )
de volgende afbeelding toont de tijd die voldoet aan de doel criteria voor de RTX-en V100S-gpu's:
(Afbeelding. 4 MLPERF-prestaties)
De resultaten worden beschouwd na het uitvoeren van meerdere runs, het verwijderen van de hoogste en de laagste waarde, en het gemiddelde berekenen van de andere uitvoeringen volgens de genoemde richtlijnen. De prestaties voor beide RTX-Gpu's zijn vergelijkbaar. Het percentage afwijking tussen de RTX Gpu's is minimaal en binnen het acceptatie bereik volgens de MLPerf-richtlijnen. Hoewel Volta V100 GPU de beste prestaties biedt, kunnen de RTX-Gpu's ook goed worden uitgevoerd met uitzondering van de benchmark methode voor objectdetectie.
Ten tijde van de publicatie kon de benchmark code van de installatiekopie in MLPerf niet worden opgetreden met RTX-Gpu's vanwege een convolutie fout. Dit probleem zal naar verwachting in een toekomstige cuDNN-release worden verholpen.
In deze blog hebben we de prestaties van de Dell EMC DSS 8440 GPU server en NVIDIA RTX-Gpu's besproken voor HPC en AI-workloads. De prestaties voor beide RTX-Gpu's zijn vergelijkbaar. de RTX 8000-GPU is echter een beste keuze voor toepassingen die een grotere hoeveelheid geheugen nodig hebben. Voor snelle Precision-werklasten of werklasten die een hoge geheugenbandbreedte Volta-V100S vereisen en de nieuwe NVIDIA A100 GPU de beste keuze.
In de toekomst is het van plan om een prestatieonderzoek op RTX-Gpu's uit te voeren met andere single Precision-toepassingen en een de-onderzoek op RTX en A100 Gpu's.