Dell EMC DSS8440 -servern är en 2-sockel, 4U-Server utformad för högpresterande dator hantering, Machine Learning (ml) och djupgående inlärnings arbets belastning. Den stöder olika GPU: er som NVIDIA Volta V100S och NVIDIA Tesla T4 behållning Core GPU såväl som NVIDIA Quadro RTX GPU .
(Bild. 1 Dell EMC DSS840-Server)
I den här bloggen utvärderas prestandan för kostnads effektiva NVIDIA Quadro RTX 6000 och NVIDIA Quadro RTX 8000 GPU: er jämfört med den övre nivån Accelerator V100S GPU med hjälp av olika branschstandardiserade benchmarking-verktyg. Detta inbegriper testning av arbets belastningar med enkel vs (dubbel precision). Även om Quadro-serien funnits länge har RTX GPU: er med NVIDIA Turing-arkitektur lanserats i slutet 2018. Specifikationerna i tabell 1 visar att RTX 8000-GPU är överlägset RTX-6000 i termer av konfiguration med högre minne. Men RTX 8000 och RTX 6000 GPU: er har högre ström behov jämfört med V100S GPU. För arbets belastningar som kräver högre minnes kapacitet är RTX 8000 det bästa valet.
Specifikationer | RTX 6000 | RTX 8000 | V100S-32 GB |
---|---|---|---|
Arkitektur | Turing | Volta | |
Minne | 24 GB GDDR6 | 48 GB GDDR6 | 32 GB HBM2 |
Standard klock frekvens (MHz) | 1395 | 1245 | |
GPU: n (maximal) klock frekvens (MHz) | 1770 | 1597 | |
CUDA-kärnor | 4608 | 5120 | |
FP32 (TFLOPS maximum) | 16,3 | 16,4 | |
Minnes bandbredd (GB/s) | 672 | 1134 | |
Strömförsörjning | 295 W | 250 W |
Tabell. 1 GPU-specifikationer
Server | DellEMC, PowerEdge, DSS8440 | ||
---|---|---|---|
Processor | 2 x Intel Xeon 6248, 20 C @ 2,5 GHz | ||
Minne | 24 x 32 GB @ 2933 MT/s (768 GB totalt) | ||
DISKRET | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S-PCIe |
Lagring | 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500) | ||
Strömkällor | 4 x 2400 W |
Tabell. 2 -Server konfigurations Detaljer
BIOS | 2.5.4 |
---|---|
Operativsystem: | RHEL 7,6 |
Kärna | 3.10.0-957.el7.x86_64 |
System profil | Prestandaoptimerad |
CUDA Toolkit CUDA-drivrutin |
10,1 440.33.01 |
Tabell. 3 information om systemets fasta program vara
Indicator | Version |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 uppdatering 4 |
LAMMPS | Mars 3 2020 OpenMPI – 4.0.3 |
MLPERF | v 0,6-utbildning docknings Station 19,03 |
Tabell. 4 tillämpnings uppgifter
LAMMPS är ett molekyl Dynamics-program som upprätthålls av forskare på Sandia nationella laboratorier och Temple University. LAMMPS har kompilerats med KOKKOS-paketet för att fungera effektivt på NVIDIA GPU: er. Lennard Jones dataset användes för att utföra prestanda jämförelse och Timesteps/s som mått som visas i bild 2:
(Bild. 2 Lennard Jones-diagram)
Enligt vad som anges i tabell 1 har RTX 6000 och RTX 8000 GPU: er har samma antal kärnor, enkel precisions prestanda och GPU-bandbredd men olika GPU-minne. Eftersom båda RTX GPU: er har en liknande konfiguration är prestanda även i samma intervall. RTX GPU-skalbarheten för detta program och prestandan för båda GPU: erna är identiska.
Volta V100S GPU-prestandan är ungefär tre gånger snabbare än Quadro RTX GPU. Nyckel faktorn för detta högre prestanda är den största bandbredden för GPU: n i V100S-GPU.
HPL är en standard HPC benchmark som mäter datorns prestanda. Den används som referens riktmärke av TOP500-listan för att rangordna superdatorer över hela världen.
Följande bild visar prestandan för RTX 6000, RTX 8000 och V100S GPU med hjälp av DSS 8440 Server. Som du ser är prestandan för RTX GPU: er betydligt lägre än V100S GPU. Detta ska förväntas eftersom HPL utför en Matrix LU factorization som huvudsakligen är dubbel precisions flytt ALS operation.
(Bild. 3 HPL prestanda med olika GPU: er)
Om vi jämför den teoretiska flytt ALS prestandan, dvs. Rpeak av båda GPU: erna, ser vi att GPU-prestandan för V100S är mycket högre. Det teoretiska Rpeak-värdet på en enda RTX-GPU är ungefär 500GFlops. Det här värdet ger mindre prestanda (Rmax) per GPU. Rpeak-värdet för Volta V100S GPU är 8.2 TFlops, vilket resulterar i mycket högre prestanda från varje kort.
Behovet av branschstandardiserade prestandatester för ML ledde till utvecklingen av MLPerf-sviten. I denna svit ingår riktmärken för utvärdering av utbildnings-och uteffekts prestanda för ML maskin vara och program vara. Det här avsnittet handlar endast om utbildnings prestanda för GPU: er. I följande tabell visas de djupgående inlärnings arbets uppgifter, data uppsättningar och mål kriterier som används för att utvärdera GPU: erna.
Benchmarking | Mängden | Kvalitets mål | Referens implementerings modell |
---|---|---|---|
Bild klassificering | ImageNet (224x224) | 75,9% upp till 1-exakthet | Resnet-50 v 1.5 |
Objekt detektering (ljus vikt) |
COCO 2017 | 23% mAP | SSD-ResNet34 |
Objekt detektering (tung vikt) |
COCO 2017 | 0,377 Box minsta AP 0,339 mask minsta AP |
Mask R-CNN |
Översättning (återkommande) |
WMT engelska-tyska | 24,0 BLEU | GNMT |
Översättning (ej återkommande) |
WMT engelska-tyska | 25,0 BLEU | Transformator |
Förstärknings inlärning | Ej tillämpligt | Förtränad kontroll punkt | Mini go |
Tabell. 5 MLPerf data uppsättningar och mål kriterier (Källa:https://mlperf.org/Training-Overview/#overview )
följande bild visar tiden för att uppfylla mål kriteriet för både RTX-och V100S GPU:
(Bild. 4 MLPERF prestanda)
Resultaten beaktas när flera sekvenser har utförts, kastats bort det högsta och lägsta värdet och medelvärdet för andra körningar enligt rikt linjerna i listan. Prestandan för båda RTX GPU: er är likartade. Skillnaden i procent mellan båda RTX GPU: er är minimal och inom acceptans intervallet enligt MLPerf-riktlinjer. Volta V100 GPU ger bästa prestanda, men RTX-GPU: erna fungerar även bra utom för att mäta objekt avkänning.
Vid tidpunkten för publiceringen misslyckades bild klassificeringen i MLPerf med RTX GPU: er på grund av ett convolution-fel. Det här problemet förväntas åtgärdas i en framtida cuDNN-version.
I den här bloggen har vi beskrivit prestandan för Dell EMC DSS 8440 GPU-servern och NVIDIA RTX GPU: er för HPC och AI-arbetsbelastningar. Prestanda för båda RTX GPU: er liknar däremot RTX 8000 GPU-enheten är ett bästa val för program som kräver en större mängd minne. För arbets belastningar med dubbel precision, eller arbets belastning som kräver hög minnes bandbredd Volta V100S och den nya NVIDIA A100-GPU: n är det bästa valet.
I framtiden planerar vi att tillhandahålla en prestanda studie på RTX GPU: er med andra enkla precision-program och en test konsekvens på RTX och A100 GPU.