Server Dell EMC DSS 8440 con GPU NVIDIA RTX per carichi di lavoro HPC e di intelligenza artificiale (in inglese)

概要: Il server DSS8440 di Dell EMC è un server 4U da 2 socket progettato per il calcolo ad alte prestazioni, l'apprendimento automatico (ML) e i workload di Deep Learning. Questo articolo mette a confronto le prestazioni di diverse GPU, come le GPU NVIDIA volta V100S e NVIDIA Tesla T4, nonché le GPU NVIDIA Quadro RTX in questo sistema. ...

この記事は次に適用されます：この記事は次には適用されません：この記事は、特定の製品に関連付けられていません。すべての製品パージョンがこの記事に記載されているわけではありません。

現象

Cherlopalle di e Frank Han

Dell EMC HPC e al laboratorio di innovazione AI 2020 giugno

Il server DSS8440 di Dell EMC è un server 4U da 2 socket progettato per il calcolo ad alte prestazioni, l'apprendimento automatico (ml) e i workload di Deep Learning. Supporta diverse GPU come le GPU NVIDIA volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 e NVIDIA Tesla T4 Core TENSOR, nonché le GPU NVIDIA Quadro RTX .

SLN321776_en_US__4image (18426)

(Figura. 1 Dell EMC server DSS840)

In questo Blog, valutiamo le prestazioni di NVIDIA Quadro RTX 6000 e le GPU NVIDIA Quadro RTX 8000 in termini di costo, rispetto a quelle della GPU V100S del top tier Accelerator utilizzando vari strumenti di benchmarking standard del settore. Sono inclusi i test relativi a workload a doppia precisione e singolo vs. Mentre la serie quadro esiste da un lungo periodo di tempo, le GPU RTX con l'architettura di Turing di NVIDIA vengono avviate nel tardo 2018. Le specifiche della tabella 1 mostrano che la GPU RTX 8000 è superiore a quella di RTX 6000 in termini di configurazione della memoria superiore. Tuttavia, le GPU RTX 8000 e RTX 6000 hanno esigenze di alimentazione più elevate rispetto alla GPU V100S. Per i workload che richiedono una capacità di memoria superiore, RTX 8000 è la scelta migliore.

Specifiche	RTX 6000	RTX 8000	V100S-32 GB
Architettura	Turing		Volta
Memoria	24 GB DI GDDR6	48 GB DI GDDR6	32 GB DI HBM2
Frequenza di clock predefinita (MHz)	1395		1245
Tasso di clock massimo GPU (MHz)	1770		1597
Core CUDA	4608		5120
FP32 (TFLOPS massimo)	16,3		16,4
Larghezza di banda della memoria (GB/s)	672		1134
Alimentazione	295 W		250 W

Specifiche GPU Table. 1

Server	Sistemi Dell EMC PowerEdge DSS8440
Processore	2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Memoria	24 x 32 GB @ 2933 MT/s (768 GB totali)
GPU	8 x quadro RTX 6000	8 x quadro RTX 8000	8 x volta V100S-PCIe
Archiviazione	1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Alimentatori	4 da 2400 W

Dettagli sulla configurazione di Table. 2 server

BIOS	2.5.4
Sistema operativo:	RHEL 7,6
Kernel	3.10.0-957.el7.x86_64
Profilo di sistema	Performance Optimized
Toolkit CUDA Driver CUDA	10,1 440.33.01

Tabella. 3 dettagli del firmware del sistema

Applicazione	Versione
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 Update 4
LAMMPS	3 2020 marzo openmpi-4.0.3
MLPERF	v 0.6 formazione Docker 19,03

Tabella. 4 informazioni sulle applicazioni

原因

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 è un'applicazione di Dynamics molecolare che viene gestita dai ricercatori di Sandia National Laboratories e Temple University. LAMMPS è stato compilato con il pacchetto Kokkos per funzionare in modo efficiente sulle GPU NVIDIA. Il DataSet Lennard Jones è stato utilizzato per il confronto delle prestazioni e Timesteps/s è la metrica, come mostrato nella figura 2:

SLN321776_en_US__8image (18427)

(Figura. 2 Lennard Jones Graph)

Come indicato nella tabella 1, le GPU RTX 6000 e RTX 8000 hanno lo stesso numero di core, prestazioni singole di precisione e larghezza di banda GPU ma una diversa memoria GPU. Poiché entrambe le GPU RTX hanno una configurazione simile, le prestazioni sono anche nello stesso intervallo. La scalabilità delle GPU di RTX è ottima per questa applicazione e le prestazioni per entrambe le GPU sono identiche.

Le prestazioni della GPU volta V100S sono circa tre volte più veloci rispetto alle GPU RTX quadro. Il fattore chiave per queste prestazioni più elevate è la larghezza di banda della memoria GPU maggiore della GPU V100S.

HPL (High Performance Linpack)

HPL è un benchmark HPC standard che misura le prestazioni di elaborazione. Viene utilizzato come benchmark di riferimento dall'elenco TOP500 per classificare i supercomputer in tutto il mondo.

La figura seguente mostra le prestazioni di RTX 6000, RTX 8000 e GPU V100S utilizzando DSS 8440 server. Come potete vedere, le prestazioni delle GPU RTX sono significativamente inferiori a quelle della GPU V100S. Ciò deve essere previsto poiché il HPL esegue una fattorizzazione LU di matrice, che è principalmente operazioni a virgola mobile a doppia precisione.

SLN321776_en_US__9image (18428)

(Figure. 3 prestazioni HPL con diverse GPU)

Se si confrontano le prestazioni teoriche a virgola mobile, ovvero Rpeak di entrambe le GPU, vediamo che le prestazioni della GPU V100S sono molto più elevate. Il valore teorico di Rpeak su una singola GPU RTX è approssimativamente 500GFlops. Questo valore restituisce meno prestazioni (Rmax) per GPU. Il valore Rpeak per la GPU volta V100S è 8,2 TFlops, il che comporta prestazioni molto più elevate per ogni scheda.

MLPerf

La necessità di benchmark delle prestazioni standard del settore per ML ha portato allo sviluppo della suite MLPerf. Questa suite include i benchmark per valutare la formazione e le prestazioni di inferenza di hardware e software. Questa sezione soddisfa solo le prestazioni di formazione di GPU. Nella tabella seguente sono elencati i workload, i DataSet e i criteri di destinazione di apprendimento intensivo utilizzati per la valutazione delle GPU.

Riferimento	DataSet	Destinazione di qualità	Modello di implementazione di riferimento
Classificazione immagine	Imagent (224x224)	75,9% di accuratezza superiore 1	Resnet-50 v 1.5
Rilevamento Object (peso leggero)	COCO 2017	23% Mappa	SSD-ResNet34
Rilevamento Object (peso elevato)	COCO 2017	0,377 casella minima AP 0,339 maschera minima AP	Maschera R-CNN
Traduzione (ricorrenti)	WMT inglese-tedesco	BLEU 24,0	GNMT
Conversione (non ricorrenti)	WMT inglese-tedesco	BLEU 25,0	Trasformatore
Apprendimento rafforzamento	N/D	Checkpoint pre-addestrato	Mini go

Table. 5 DataSet MLPerf e criteri di destinazione (origine:https://mlperf.org/Training-Overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

la figura seguente mostra l'ora di soddisfare i criteri di destinazione per entrambe le GPU RTX e V100S:

SLN321776_en_US__11image (18441)
(Figure. 4 prestazioni MLPERF)

I risultati vengono considerati dopo l'esecuzione di più esecuzioni, scartando il valore più alto e più basso e la media degli altri viene eseguita secondo le linee guida elencate. Le prestazioni per entrambe le GPU RTX sono simili. La percentuale di varianza tra entrambe le GPU RTX è minima e rientra nell'intervallo di accettazione secondo le linee guida di MLPerf. Mentre la GPU volta V100 offre le migliori prestazioni, le GPU di RTX inoltre eseguono bene, tranne il benchmark di rilevamento degli Object.

Al momento della pubblicazione, il benchmark di classificazione delle immagini in MLPerf non è riuscito con le GPU RTX a causa di un errore di convoluzione. Questo problema dovrebbe essere risolto in una release futura di cuDNN.

解決方法

Riepilogo:

In questo Blog, abbiamo discusso le prestazioni del server GPU Dell EMC DSS 8440 e delle GPU NVIDIA RTX per i workload HPC e AI. Le prestazioni per entrambe le GPU RTX sono simili, tuttavia la GPU RTX 8000 rappresenta la scelta ideale per le applicazioni che richiedono una quantità maggiore di memoria. Per i workload con precisione doppia, o workload che richiedono una larghezza di banda di V100S di memoria elevata e la nuova GPU NVIDIA A100 sono le scelte migliori.

In futuro, abbiamo in programma di fornire uno studio delle prestazioni sulle GPU di RTX con altre applicazioni di precisione singola e uno studio di inferenza sulle GPU RTX e A100.

対象製品

High Performance Computing Solution Resources

文書番号: 000132886

文書の種類: Solution

最終更新: 25 2月 2021

バージョン: 4

お使いのデバイスがサポートサービスの対象かどうかを確認してください。

Server Dell EMC DSS 8440 con GPU NVIDIA RTX per carichi di lavoro HPC e di intelligenza artificiale (in inglese)

現象

Cherlopalle di e Frank Han

Dell EMC HPC e al laboratorio di innovazione AI 2020 giugno

原因

LAMMPS

HPL (High Performance Linpack)

MLPerf

解決方法

Riepilogo:

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポートサービス

ようこそ

Dellへようこそ

Server Dell EMC DSS 8440 con GPU NVIDIA RTX per carichi di lavoro HPC e di intelligenza artificiale (in inglese)

詳細記事

現象

原因

解決方法

対象製品

現象

Cherlopalle di e Frank Han

Dell EMC HPC e al laboratorio di innovazione AI 2020 giugno

原因

LAMMPS

HPL (High Performance Linpack)

MLPerf

解決方法

Riepilogo:

対象製品

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

文書のプロパティ

質問に対する他のDellユーザーからの回答を見つける

サポート サービス

サポートサービス

サポートサービス