Il server DSS8440 di Dell EMC è un server 4U da 2 socket progettato per il calcolo ad alte prestazioni, l'apprendimento automatico (ml) e i workload di Deep Learning. Supporta diverse GPU come le GPU NVIDIA volta V100S e NVIDIA Tesla T4 Core TENSOR, nonché le GPU NVIDIA Quadro RTX .
(Figura. 1 Dell EMC server DSS840)
In questo Blog, valutiamo le prestazioni di NVIDIA Quadro RTX 6000 e le GPU NVIDIA Quadro RTX 8000 in termini di costo, rispetto a quelle della GPU V100S del top tier Accelerator utilizzando vari strumenti di benchmarking standard del settore. Sono inclusi i test relativi a workload a doppia precisione e singolo vs. Mentre la serie quadro esiste da un lungo periodo di tempo, le GPU RTX con l'architettura di Turing di NVIDIA vengono avviate nel tardo 2018. Le specifiche della tabella 1 mostrano che la GPU RTX 8000 è superiore a quella di RTX 6000 in termini di configurazione della memoria superiore. Tuttavia, le GPU RTX 8000 e RTX 6000 hanno esigenze di alimentazione più elevate rispetto alla GPU V100S. Per i workload che richiedono una capacità di memoria superiore, RTX 8000 è la scelta migliore.
Specifiche | RTX 6000 | RTX 8000 | V100S-32 GB |
---|---|---|---|
Architettura | Turing | Volta | |
Memoria | 24 GB DI GDDR6 | 48 GB DI GDDR6 | 32 GB DI HBM2 |
Frequenza di clock predefinita (MHz) | 1395 | 1245 | |
Tasso di clock massimo GPU (MHz) | 1770 | 1597 | |
Core CUDA | 4608 | 5120 | |
FP32 (TFLOPS massimo) | 16,3 | 16,4 | |
Larghezza di banda della memoria (GB/s) | 672 | 1134 | |
Alimentazione | 295 W | 250 W |
Specifiche GPU Table. 1
Server | Sistemi Dell EMC PowerEdge DSS8440 | ||
---|---|---|---|
Processore | 2 x Intel Xeon 6248, 20 C @ 2,5 GHz | ||
Memoria | 24 x 32 GB @ 2933 MT/s (768 GB totali) | ||
GPU | 8 x quadro RTX 6000 | 8 x quadro RTX 8000 | 8 x volta V100S-PCIe |
Archiviazione | 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500) | ||
Alimentatori | 4 da 2400 W |
Dettagli sulla configurazione di Table. 2 server
BIOS | 2.5.4 |
---|---|
Sistema operativo: | RHEL 7,6 |
Kernel | 3.10.0-957.el7.x86_64 |
Profilo di sistema | Performance Optimized |
Toolkit CUDA Driver CUDA |
10,1 440.33.01 |
Tabella. 3 dettagli del firmware del sistema
Applicazione | Versione |
---|---|
HPL | hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 Update 4 |
LAMMPS | 3 2020 marzo openmpi-4.0.3 |
MLPERF | v 0.6 formazione Docker 19,03 |
Tabella. 4 informazioni sulle applicazioni
LAMMPS è un'applicazione di Dynamics molecolare che viene gestita dai ricercatori di Sandia National Laboratories e Temple University. LAMMPS è stato compilato con il pacchetto Kokkos per funzionare in modo efficiente sulle GPU NVIDIA. Il DataSet Lennard Jones è stato utilizzato per il confronto delle prestazioni e Timesteps/s è la metrica, come mostrato nella figura 2:
(Figura. 2 Lennard Jones Graph)
Come indicato nella tabella 1, le GPU RTX 6000 e RTX 8000 hanno lo stesso numero di core, prestazioni singole di precisione e larghezza di banda GPU ma una diversa memoria GPU. Poiché entrambe le GPU RTX hanno una configurazione simile, le prestazioni sono anche nello stesso intervallo. La scalabilità delle GPU di RTX è ottima per questa applicazione e le prestazioni per entrambe le GPU sono identiche.
Le prestazioni della GPU volta V100S sono circa tre volte più veloci rispetto alle GPU RTX quadro. Il fattore chiave per queste prestazioni più elevate è la larghezza di banda della memoria GPU maggiore della GPU V100S.
HPL è un benchmark HPC standard che misura le prestazioni di elaborazione. Viene utilizzato come benchmark di riferimento dall'elenco TOP500 per classificare i supercomputer in tutto il mondo.
La figura seguente mostra le prestazioni di RTX 6000, RTX 8000 e GPU V100S utilizzando DSS 8440 server. Come potete vedere, le prestazioni delle GPU RTX sono significativamente inferiori a quelle della GPU V100S. Ciò deve essere previsto poiché il HPL esegue una fattorizzazione LU di matrice, che è principalmente operazioni a virgola mobile a doppia precisione.
(Figure. 3 prestazioni HPL con diverse GPU)
Se si confrontano le prestazioni teoriche a virgola mobile, ovvero Rpeak di entrambe le GPU, vediamo che le prestazioni della GPU V100S sono molto più elevate. Il valore teorico di Rpeak su una singola GPU RTX è approssimativamente 500GFlops. Questo valore restituisce meno prestazioni (Rmax) per GPU. Il valore Rpeak per la GPU volta V100S è 8,2 TFlops, il che comporta prestazioni molto più elevate per ogni scheda.
La necessità di benchmark delle prestazioni standard del settore per ML ha portato allo sviluppo della suite MLPerf. Questa suite include i benchmark per valutare la formazione e le prestazioni di inferenza di hardware e software. Questa sezione soddisfa solo le prestazioni di formazione di GPU. Nella tabella seguente sono elencati i workload, i DataSet e i criteri di destinazione di apprendimento intensivo utilizzati per la valutazione delle GPU.
Riferimento | DataSet | Destinazione di qualità | Modello di implementazione di riferimento |
---|---|---|---|
Classificazione immagine | Imagent (224x224) | 75,9% di accuratezza superiore 1 | Resnet-50 v 1.5 |
Rilevamento Object (peso leggero) |
COCO 2017 | 23% Mappa | SSD-ResNet34 |
Rilevamento Object (peso elevato) |
COCO 2017 | 0,377 casella minima AP 0,339 maschera minima AP |
Maschera R-CNN |
Traduzione (ricorrenti) |
WMT inglese-tedesco | BLEU 24,0 | GNMT |
Conversione (non ricorrenti) |
WMT inglese-tedesco | BLEU 25,0 | Trasformatore |
Apprendimento rafforzamento | N/D | Checkpoint pre-addestrato | Mini go |
Table. 5 DataSet MLPerf e criteri di destinazione (origine:https://mlperf.org/Training-Overview/#overview )
la figura seguente mostra l'ora di soddisfare i criteri di destinazione per entrambe le GPU RTX e V100S:
(Figure. 4 prestazioni MLPERF)
I risultati vengono considerati dopo l'esecuzione di più esecuzioni, scartando il valore più alto e più basso e la media degli altri viene eseguita secondo le linee guida elencate. Le prestazioni per entrambe le GPU RTX sono simili. La percentuale di varianza tra entrambe le GPU RTX è minima e rientra nell'intervallo di accettazione secondo le linee guida di MLPerf. Mentre la GPU volta V100 offre le migliori prestazioni, le GPU di RTX inoltre eseguono bene, tranne il benchmark di rilevamento degli Object.
Al momento della pubblicazione, il benchmark di classificazione delle immagini in MLPerf non è riuscito con le GPU RTX a causa di un errore di convoluzione. Questo problema dovrebbe essere risolto in una release futura di cuDNN.
In questo Blog, abbiamo discusso le prestazioni del server GPU Dell EMC DSS 8440 e delle GPU NVIDIA RTX per i workload HPC e AI. Le prestazioni per entrambe le GPU RTX sono simili, tuttavia la GPU RTX 8000 rappresenta la scelta ideale per le applicazioni che richiedono una quantità maggiore di memoria. Per i workload con precisione doppia, o workload che richiedono una larghezza di banda di V100S di memoria elevata e la nuova GPU NVIDIA A100 sono le scelte migliori.
In futuro, abbiamo in programma di fornire uno studio delle prestazioni sulle GPU di RTX con altre applicazioni di precisione singola e uno studio di inferenza sulle GPU RTX e A100.